Индексация сайта 2026: robots.txt, sitemap.xml, llms.txt — полный гайд
Полный гайд по индексации сайта 2026: robots.txt синтаксис, типы sitemap.xml, новый стандарт llms.txt, 10 причин почему страница не индексируется, как ускорить индексацию.
Индексация — процесс, при котором поисковый робот (Googlebot, YandexBot, GPTBot) обнаруживает, сканирует и добавляет страницы вашего сайта в поисковую базу. Без индексации ни позиций, ни AI-видимости нет в принципе: нейросеть не может процитировать страницу, которой нет ни в каком индексе.
В 2026 году «индексация» означает три параллельных процесса: традиционная поисковая индексация (Google/Яндекс), AI-индексация (GPTBot/Anthropic/YandexGPT), и crawl budget management — управление ресурсами на краулинг. Все три управляются разными инструментами.
В этом гайде: как работает индексация, синтаксис robots.txt с реальными примерами, типы sitemap.xml, новый стандарт llms.txt, Search Console и Вебмастер, 10 причин проблем с индексацией и 10 техник ускорения.
Проверьте состояние индексации вашего сайта: audit4seo.ru.
Оглавление
- Как работает индексация: Google, Яндекс, AI-системы
- robots.txt — синтаксис и правила
- sitemap.xml — типы и настройка
- llms.txt — стандарт 2026
- Search Console и Вебмастер
- 10 причин почему страница не индексируется
- Как ускорить индексацию
- Дубли и каннибализация
- FAQ
- Чек-лист индексации
Как работает индексация: Google, Яндекс, AI-системы
Детальный разбор управления robots.txt и sitemap.xml — в статье «robots.txt и sitemap.xml: полный гайд».
Традиционная индексация: Google и Яндекс
Процесс состоит из трёх этапов:
1. Краулинг (Crawling) Поисковый бот обходит сайт по ссылкам, следуя правилам robots.txt. Googlebot и YandexBot имеют ограниченный краулинговый бюджет на каждый сайт — они не могут краулить бесконечно. Частота краулинга зависит от авторитета домена, частоты обновления контента и скорости отклика сервера.
2. Обработка (Processing) Бот читает HTML, обрабатывает CSS и JavaScript (Google рендерит JS, Яндекс — частично), извлекает текст, ссылки, мета-теги и структурированные данные.
3. Индексирование (Indexing) Обработанный контент добавляется в индекс — огромную базу данных, по которой строится поиск. Страница может быть обнаружена краулером, но не войти в индекс: тонкий контент, дубли, noindex, слабый ссылочный профиль.
AI-индексация: GPTBot, Anthropic-AI, YandexGPT
AI-краулеры работают иначе. Они не строят поисковый индекс для ранжирования — они собирают контент для обучения LLM-моделей или для real-time search. Ключевые боты:
| Бот | Компания | User-Agent | Можно ли заблокировать |
|---|---|---|---|
| GPTBot | OpenAI | GPTBot |
Да, через robots.txt |
| Anthropic-AI | Anthropic | anthropic-ai |
Да |
| Google-Extended | Google-Extended |
Да | |
| PerplexityBot | Perplexity | PerplexityBot |
Да |
| YandexBot | Яндекс | YandexBot |
Да (но теряете AI-индексацию) |
Если вы хотите попасть в нейроответы — не блокируйте AI-краулеры. llms.txt помогает направить их на нужные страницы.
Краулинговый бюджет
Поисковики выделяют каждому сайту ограниченный «бюджет» краулинга. Для небольших сайтов (< 1000 страниц) это обычно не проблема. Для крупных сайтов (100 000+ страниц): - Технические дубли, бесконечные фасеты, URL с параметрами съедают бюджет - Полезный контент краулится реже - Новые страницы индексируются медленнее
Управление бюджетом: robots.txt (закрыть ненужное) + sitemap (показать важное) + устранение дублей.
robots.txt — синтаксис и правила
robots.txt — текстовый файл в корне сайта (https://yoursite.ru/robots.txt), содержащий директивы для поисковых роботов.
Базовая структура
# Разрешить всем роботам
User-agent: *
Allow: /
# Запретить доступ к административной части
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
# Ссылка на sitemap
Sitemap: https://yoursite.ru/sitemap.xml
Директивы robots.txt
| Директива | Назначение | Пример |
|---|---|---|
User-agent |
Для кого применяются правила | User-agent: * (все), User-agent: Googlebot |
Disallow |
Запретить краулинг | Disallow: /search/ |
Allow |
Разрешить (уточнение после Disallow) | Allow: /search/results/ |
Sitemap |
Указать адрес sitemap | Sitemap: https://site.ru/sitemap.xml |
Crawl-delay |
Задержка между запросами | Crawl-delay: 1 (Яндекс поддерживает, Google нет) |
Примеры практических конфигураций
Типичный интернет-магазин:
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /search?
Disallow: /catalog/?sort=
Disallow: /catalog/?page=
Sitemap: https://shop.ru/sitemap.xml
Sitemap: https://shop.ru/sitemap-products.xml
Закрыть AI-краулеры (если не хотите, чтобы OpenAI обучала модели на вашем контенте):
User-agent: GPTBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
# Остальных поисковиков не трогаем
User-agent: *
Allow: /
Разрешить AI-краулерам только публичный контент:
User-agent: GPTBot
Allow: /blog/
Allow: /guides/
Disallow: /
User-agent: *
Allow: /
Типичные ошибки в robots.txt
- Disallow: / — закрыт весь сайт. Часто встречается на тестовых серверах, которые «случайно» переехали на продакшн.
- Disallow: /catalog/ — закрыт весь каталог интернет-магазина.
- Синтаксические ошибки — лишние пробелы, неправильный регистр User-agent.
- robots.txt защищает от краулинга, не от индексации — если на страницу есть ссылки, поисковик может добавить её в индекс без краулинга (при этом не зная содержимого).
Проверка robots.txt
- Google Search Console → Инструменты → Robots.txt Tester
- Яндекс Вебмастер → Инструменты → Анализ robots.txt
sitemap.xml — типы и настройка
Sitemap — XML-файл с картой URL-адресов сайта. Помогает поисковикам найти страницы, которые плохо обнаруживаются через ссылки, и приоритизировать краулинг.
Обязательные атрибуты
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://audit4seo.ru/guides/seo-audit-2026/</loc>
<lastmod>2026-05-02</lastmod>
<changefreq>monthly</changefreq>
<priority>0.9</priority>
</url>
</urlset>
Атрибуты:
- <loc> — URL страницы (обязательный)
- <lastmod> — дата последнего изменения в формате YYYY-MM-DD
- <changefreq> — частота изменений (always, hourly, daily, weekly, monthly, yearly, never)
- <priority> — приоритет 0.0–1.0 (только подсказка, не директива)
Практическое замечание: changefreq и priority Google почти не учитывает — заявил об этом официально. Яндекс использует lastmod. Самое важное — актуальный lastmod.
Типы sitemap
Стандартный sitemap: Для обычных HTML-страниц. Максимум 50 000 URL и 50 MB на файл.
Sitemap Index (мастер-файл): Для больших сайтов — один файл содержит ссылки на другие sitemap.
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://site.ru/sitemap-pages.xml</loc>
<lastmod>2026-05-02</lastmod>
</sitemap>
<sitemap>
<loc>https://site.ru/sitemap-products.xml</loc>
<lastmod>2026-05-02</lastmod>
</sitemap>
</sitemapindex>
Image sitemap: Для страниц с важными изображениями (галереи, фотобанки).
<url>
<loc>https://site.ru/page/</loc>
<image:image>
<image:loc>https://site.ru/images/photo.jpg</image:loc>
<image:title>Описание изображения</image:title>
</image:image>
</url>
Video sitemap: Для видеоконтента — помогает попасть в Google Video Search.
News sitemap: Для новостных ресурсов — обязателен для Google News. Максимум 1000 статей за последние 2 дня.
<url>
<loc>https://news.ru/article/123</loc>
<news:news>
<news:publication>
<news:name>News Site</news:name>
<news:language>ru</news:language>
</news:publication>
<news:publication_date>2026-05-02</news:publication_date>
<news:title>Заголовок новости</news:title>
</news:news>
</url>
Hreflang sitemap (для многоязычных сайтов):
<url>
<loc>https://site.ru/page/</loc>
<xhtml:link rel="alternate" hreflang="ru" href="https://site.ru/page/"/>
<xhtml:link rel="alternate" hreflang="en" href="https://site.com/page/"/>
<xhtml:link rel="alternate" hreflang="x-default" href="https://site.com/page/"/>
</url>
Что НЕ включать в sitemap
- Страницы с
<meta name="robots" content="noindex"> - Страницы с редиректами (301/302)
- Дубли страниц (только канонические URL)
- Страницы с ошибками 4xx/5xx
- Служебные страницы: /admin/, /cart/, /checkout/, /search?
llms.txt — стандарт 2026
Это новый стандарт, которого ещё нет у 99,5% российских сайтов. Возможность первопроходца.
Что такое llms.txt
llms.txt — markdown-файл, размещаемый в корне сайта по адресу /llms.txt. Содержит курированную карту самых ценных страниц для LLM-краулеров.
История: - Сентябрь 2024 — Jeremy Howard (Answer.AI) предложил спецификацию - Q4 2024 — поддержан OpenAI и Anthropic - Q1 2025 — поддержан Google Gemini, YandexGPT, Mistral - 2025 — внедрён Anthropic, Stripe, Cloudflare, Vercel и тысячами SaaS-компаний
Официальная спецификация: llmstxt.org
Зачем нужен llms.txt
| Польза | Для кого |
|---|---|
| Экономит токен-бюджет LLM (не краулит весь сайт) | Нейросети |
| Подсвечивает самый точный и актуальный контент | Нейросети |
| Даёт семантическую карту сайта | AI-системы |
| Конкурентное преимущество первопроходца в RU-сегменте | Владелец сайта |
| Сигнализирует о готовности к AI-эре | E-E-A-T для AI |
Структура и формат
# Название сайта
> Краткое описание сайта в 1–2 предложениях. Что это такое и для кого.
## Ключевые разделы
- [Название раздела](https://site.ru/section/): Краткое описание раздела
## Важные страницы
- [Заголовок страницы](https://site.ru/page/): Что именно можно узнать на этой странице
- [Второй гайд](https://site.ru/guide2/): Описание
## О компании
- [О нас](https://site.ru/about/): Информация о компании, опыт, экспертиза
- [Контакты](https://site.ru/contacts/): Контактные данные
Реальный пример для audit4seo.ru
# audit4seo.ru — SEO-аудит сайта
> Сервис автоматического SEO-аудита по 68 параметрам. Проверка технического
> состояния сайта, скорости загрузки, мета-тегов, Schema.org и AI-видимости
> в нейросетях. Для SEO-специалистов, маркетологов и владельцев сайтов в РФ.
## Основные инструменты
- [SEO-аудит сайта](https://audit4seo.ru/): Автоматический аудит 68 параметров за 30 секунд
- [AI Visibility мониторинг](https://neuro.audit4seo.ru/): Мониторинг упоминаний в нейросетях
## Гайды и руководства
- [AI Visibility 2026](https://audit4seo.ru/guides/ai-visibility-2026): Полный гайд по видимости в нейросетях
- [SEO-аудит 2026](https://audit4seo.ru/guides/seo-audit-2026): 14 категорий, топ-15 ошибок, чек-лист 68 проверок
- [Core Web Vitals 2026](https://audit4seo.ru/guides/performance-2026): LCP, INP, CLS — пороги и оптимизация
- [Мета-теги и Schema.org](https://audit4seo.ru/guides/meta-tags-2026): Топ-15 типов, JSON-LD, canonical
- [Индексация 2026](https://audit4seo.ru/guides/indexation-2026): robots.txt, sitemap.xml, llms.txt
## О нас
- [Об авторе](https://audit4seo.ru/about): Олег Шалыгин — SEO-эксперт, 10+ лет практики
Опциональный llms-full.txt
По спецификации можно также создать /llms-full.txt — расширенную версию с полным текстом ключевых страниц для autonomous-агентов, которым нужен больший контекст без краулинга.
llms.txt и Яндекс
YandexGPT распознаёт llms.txt (обнаружено в логах краулеров). Официального подтверждения от Яндекса нет, но файл точно не вредит и, вероятно, помогает Алисе лучше понять структуру сайта.
Search Console и Вебмастер
Google Search Console
Основной инструмент для мониторинга индексации в Google:
Index Coverage (Охват индекса): - «Действительные» — проиндексированные страницы - «Ошибки» — страницы с проблемами краулинга/индексации - «Исключено» — страницы, сознательно или случайно выброшенные из индекса
Ключевые статусы «Исключено»:
- Noindex — тег или HTTP-заголовок
- Заблокировано robots.txt — краулинг запрещён
- Обнаружено, но не проиндексировано — нашли, но качество/ценность недостаточны
- Дубликат без выбора каноника — дубль, Google сам выбрал канонический
URL Inspection: Проверить конкретный URL: проиндексирован ли, когда последний раз краулился, какие проблемы найдены. Можно запросить переиндексацию (работает как пинг Googlebot).
Core Web Vitals: Агрегированные данные CrUX по группам URL с проблемами LCP/INP/CLS.
Инструмент проверки sitemap: Статус подачи sitemap, число обнаруженных URL, ошибки.
Яндекс Вебмастер
Аналогичный функционал для Яндекса:
Страницы в поиске: число проиндексированных страниц и динамика.
Ошибки краулинга: недоступные страницы, серверные ошибки, исключённые из-за ошибок.
Индексирование → Переобход: инструмент запроса переиндексации конкретных URL (аналог URL Inspection в GSC).
Структурированные данные: валидация Schema.org — ошибки и предупреждения.
Поиск с Алисой → Видимость в Алисе AI: с апреля 2026 — официальные данные об AI-видимости вашего сайта.
10 причин почему страница не индексируется
Для пошагового решения каждой проблемы — статья «Как ускорить индексацию сайта».
1. noindex тег или HTTP-заголовок
<!-- Блокирует индексацию -->
<meta name="robots" content="noindex">
или в HTTP-заголовке:
X-Robots-Tag: noindex
Диагностика: GSC → URL Inspection → статус «Исключено: noindex». Часто встречается на тестовых серверах, перенесённых на продакшн.
2. Disallow в robots.txt
robots.txt закрывает краулинг страницы. Даже если на страницу есть ссылки — без краулинга полноценной индексации не будет.
Диагностика: GSC → URL Inspection → «Заблокировано robots.txt».
3. Тонкий или дублированный контент
Helpful Content System (интегрирована в Core с марта 2024) фильтрует страницы с: - Контентом < 300–500 слов без уникальной ценности - Скопированным или перефразированным контентом - Контентом, написанным «для поисковиков», а не для людей
Диагностика: GSC → «Обнаружено, но не проиндексировано». Решение: улучшить контент или добавить noindex + canonical на дубль.
4. Canonical указывает на другую страницу
Если страница A имеет canonical на страницу B — поисковик считает A дублем и индексирует B.
Диагностика: проверить canonical через GSC → URL Inspection → Canonical URL.
5. Медленный TTFB или недоступный сервер
Если сервер не отвечает или отвечает слишком медленно (> 5 сек) — Googlebot прерывает краулинг и не индексирует страницу.
Диагностика: GSC → «Ошибка сервера (5xx)».
6. Нет входящих ссылок (страница-«сирота»)
Поисковики находят страницы через ссылки. «Сирота» — страница, на которую никто не ссылается — краулится редко или не краулится вообще.
Решение: добавить ссылку с главной, категории или соответствующего материала.
7. Слишком много URL в фасетной навигации
Интернет-магазины с фасетными фильтрами генерируют тысячи комбинаций URL (/catalog/?brand=samsung&color=black&price=5000-10000). Это «съедает» краулинговый бюджет, не давая роботу добраться до важных страниц.
Решение: закрыть параметрические URL в robots.txt + canonical на чистый URL фасета.
8. Страница за формой или авторизацией
Контент за <form> без прямого URL, контент за авторизацией, AJAX-контент без статических URL — всё это Googlebot не видит (YandexBot ещё хуже).
Решение: ключевой контент должен быть доступен по прямому URL без авторизации.
9. JavaScript-рендеринг без SSR
Сайты на React/Vue/Angular без SSR (Server-Side Rendering) рендерят контент только в браузере. Googlebot рендерит JavaScript, но это медленнее и происходит в отдельной очереди. YandexBot рендерит JS хуже.
Решение: SSR (Next.js, Nuxt.js) или Static Generation для ключевых страниц.
10. Недавно созданная страница / новый домен
Новые домены и новые страницы требуют времени. Googlebot: 1–7 дней. YandexBot: 1–14 дней. Ускорение возможно через методы из следующего раздела.
Как ускорить индексацию
1. Google Indexing API (самый быстрый метод)
Google Indexing API позволяет уведомить Google о новой или изменённой странице. Официально доступен для: - JobPosting страниц - BroadcastEvent (livestream)
Неофициально многие используют для любых страниц — Google обрабатывает за несколько часов, но поддержка ограниченная. Для легального применения: страницы с JobPosting Schema.
2. Request Indexing в GSC
Google Search Console → URL Inspection → [Введите URL] → «Запросить индексацию».
- Работает для конкретных URL
- Лимит: ~10–20 запросов в день
- Обработка: обычно 1–3 дня
3. Ping sitemap в Яндекс Вебмастер
Яндекс Вебмастер → Инструменты → Переобход страниц → добавить URL. Для массового обновления — повторно подать sitemap через Вебмастер → Инструменты → Sitemap.
4. Внутренние ссылки на новую страницу
Добавьте ссылку с хорошо краулируемых страниц (главная, категория, популярные статьи). Googlebot «видит» новую страницу при следующем краулинге уже проиндексированных страниц.
5. Внешние ссылки
Упомяните новую страницу в соцсетях (VK, Telegram) или на форумах. Googlebot краулит внешние источники и находит новые URL.
6. Повышение краулингового бюджета
Для крупных сайтов: закройте ненужное в robots.txt, устраните бесконечные параметры, уберите дубли. Освободившийся бюджет пойдёт на важные страницы.
7. Улучшение TTFB (< 200 мс)
Быстрый сервер = Googlebot краулит больше страниц за тот же визит. CDN, кэширование, оптимизация backend-запросов.
8. Регулярное обновление контента
Поисковики краулят часто обновляемые сайты чаще. Обновляйте lastmod в sitemap при реальных изменениях контента.
9. llms.txt с актуальными URL
Для AI-краулеров: llms.txt направляет боты сразу на ключевые страницы. Не заменяет традиционную индексацию, но ускоряет AI-индексацию.
10. Сокращение глубины вложенности
Страницы глубже 4 кликов от главной краулятся реже. Добавьте ссылки из верхних уровней навигации или из popular-раздела на важные глубокие страницы.
Дубли и каннибализация
Дубли страниц
Дубли — несколько URL с одинаковым или почти одинаковым контентом. Проблема: поисковик не знает, какую страницу показывать → обе страницы ранжируются хуже.
Типичные источники дублей:
- site.ru/page/ и site.ru/page (со слешем / без)
- http://site.ru и https://site.ru
- www.site.ru и site.ru
- /catalog/?sort=price и /catalog/ (с параметрами)
- Пагинация без canonical (/catalog/page/2/)
Решение: canonical-теги + 301-редиректы для технических дублей. Подробно — в гайде «Мета-теги и Schema.org 2026».
Каннибализация ключевых слов
Каннибализация — несколько страниц сайта конкурируют за один и тот же поисковый запрос. Результат: обе страницы «ослаблены», позиции нестабильны.
Диагностика: 1. В GSC → Performance → введите запрос → посмотрите «Страницы» — несколько URLs? 2. В Яндекс Вебмастер → Запросы → проверить, не ранжируются ли несколько страниц по одному запросу
Решение: - Объединить две похожие страницы в одну (301-редирект со слабой на сильную) - Переориентировать одну страницу на смежный, но другой запрос - Явное указание canonical
FAQ
Почему страница не индексируется, хотя добавлена в sitemap?
Основные причины: noindex тег, robots.txt, canonical на другую страницу, тонкий контент (Helpful Content фильтр), слабый ссылочный вес. Проверьте через GSC → URL Inspection.
Сколько времени занимает индексация новой страницы?
Google: 1–7 дней для качественных сайтов. Яндекс: 1–14 дней. Ускорение: GSC → URL Inspection → Запросить индексацию; Яндекс Вебмастер → Переобход страниц; внутренние ссылки с краулируемых страниц.
Что такое llms.txt и как он влияет на индексацию?
llms.txt — markdown-файл с картой ключевых страниц для LLM-краулеров. Влияет на AI-индексацию (нейросети), а не на традиционную поисковую. Помогает нейросетям найти важный контент без полного краулинга.
Можно ли закрыть часть сайта от индексации?
Да. robots.txt закрывает папки от краулинга. noindex закрывает конкретные страницы от индексации. Canonical направляет на «правильную» версию дубля.
Нужно ли добавлять все страницы в sitemap?
Нет. Только канонические, проиндексированные страницы с качественным контентом. Не включайте: noindex, редиректы, дубли, сервисные страницы.
Как проверить, что сайт правильно проиндексирован?
GSC → Index Coverage; Яндекс Вебмастер → Страницы в поиске; оператор site:yoursite.ru в поиске.
Чек-лист индексации
Автоматическая проверка индексации: audit4seo.ru.
robots.txt
- [ ] Файл доступен по адресу
/robots.txt - [ ] Нет
Disallow: /для всех роботов - [ ] Нет
Disallow:на ключевые разделы (каталог, блог, статьи) - [ ] Параметрические URL каталога закрыты
- [ ] Административные разделы закрыты (/admin/, /cart/)
- [ ] Присутствуют ссылки на все sitemap
- [ ] Проверен через GSC → Robots.txt Tester
sitemap.xml
- [ ] Файл доступен по
/sitemap.xml - [ ] Содержит только канонические URL
- [ ] Нет URL с noindex в sitemap
- [ ] Нет редиректов в sitemap
- [ ]
lastmodсоответствует реальной дате обновления - [ ] Подан в GSC и Яндекс Вебмастер
- [ ] Нет ошибок в GSC → Sitemaps
llms.txt
- [ ] Файл создан и доступен по
/llms.txt - [ ] Содержит краткое описание сайта (1–2 предложения)
- [ ] Перечислены 10–20 ключевых страниц с описаниями
- [ ] Все ссылки актуальны (нет 404)
- [ ] Соответствует спецификации llmstxt.org
Индексация страниц
- [ ] Число проиндексированных страниц в GSC соответствует ожидаемому
- [ ] В GSC нет страниц с критичными ошибками
- [ ] Нет noindex на контентных страницах
- [ ] Нет «сирот» — страниц без входящих ссылок
- [ ] Все важные страницы достижимы за ≤ 3 клика от главной
AI-индексация
- [ ] AI-краулеры (GPTBot, Anthropic-AI) не заблокированы (если хотите AI-видимости)
- [ ] Яндекс Вебмастер → Поиск с Алисой → Видимость подключён
- [ ] llms.txt актуален и содержит приоритетный контент
Дубли и canonical
- [ ] Все страницы имеют самоссылающийся canonical
- [ ] Технические дубли решены 301-редиректами
- [ ] В GSC нет предупреждений «Дубликат без выбора каноника»
- [ ] Пагинация обработана (canonical на первую страницу или rel=prev/next)
Проверьте состояние индексации вашего сайта: audit4seo.ru — 50+ параметров, включая robots.txt, sitemap и доступность llms.txt.
Источники
- Google Search Central — How Google Search crawls
- Google Search Central — robots.txt specification
- Google Search Central — sitemap.xml
- Google Search Central — Canonicalization
- Яндекс Вебмастер — robots.txt
- Яндекс Вебмастер — Sitemap
- llmstxt.org — официальная спецификация
- Answer.AI — Proposing the llms.txt standard
- OpenAI — GPTBot documentation
- Google Search Central — Indexing API
{
"@context": "https://schema.org",
"@graph": [
{
"@type": "Article",
"headline": "Индексация сайта 2026: robots.txt, sitemap.xml, llms.txt — полный гайд",
"description": "Полный гайд по индексации 2026: robots.txt, типы sitemap.xml, новый стандарт llms.txt, 10 причин проблем с индексацией, методы ускорения.",
"author": {
"@type": "Person",
"name": "Олег Шалыгин",
"url": "https://audit4seo.ru/about"
},
"publisher": {
"@type": "Organization",
"name": "audit4seo.ru",
"url": "https://audit4seo.ru",
"logo": {"@type": "ImageObject", "url": "https://audit4seo.ru/logo.png"}
},
"datePublished": "2026-05-02",
"dateModified": "2026-05-02",
"mainEntityOfPage": "https://audit4seo.ru/guides/indexation-2026"
},
{
"@type": "BreadcrumbList",
"itemListElement": [
{"@type": "ListItem", "position": 1, "name": "Главная", "item": "https://audit4seo.ru/"},
{"@type": "ListItem", "position": 2, "name": "Гайды", "item": "https://audit4seo.ru/guides/"},
{"@type": "ListItem", "position": 3, "name": "Индексация сайта 2026"}
]
},
{
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "Почему страница не индексируется, хотя добавлена в sitemap?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Основные причины: noindex тег, robots.txt Disallow, canonical на другую страницу, тонкий контент (Helpful Content фильтр), слабый ссылочный вес. Проверьте через GSC → URL Inspection."
}
},
{
"@type": "Question",
"name": "Что такое llms.txt и как он влияет на индексацию?",
"acceptedAnswer": {
"@type": "Answer",
"text": "llms.txt — markdown-файл с картой ключевых страниц для LLM-краулеров (OpenAI, YandexGPT, Anthropic). Влияет на AI-индексацию: помогает нейросетям найти важный контент без полного краулинга. На российских сайтах внедрён менее чем у 0,5%."
}
},
{
"@type": "Question",
"name": "Сколько времени занимает индексация новой страницы?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Google: 1–7 дней для качественных сайтов. Яндекс: 1–14 дней. Ускорение: GSC → URL Inspection → Запросить индексацию; Яндекс Вебмастер → Переобход страниц; добавить внутренние ссылки с краулируемых страниц."
}
},
{
"@type": "Question",
"name": "Нужно ли добавлять все страницы в sitemap?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Нет. В sitemap включайте только канонические страницы с качественным контентом. Не включайте: noindex страницы, редиректы, дубли, сервисные URL."
}
}
]
}
]
}
Подробные разделы гайда
Каждый блок — отдельный детальный материал по теме.