Можно ли закрыть часть сайта от индексации, но оставить остальное?

Да. robots.txt закрывает папки или типы URL для краулеров: Disallow: /admin/ закрывает административные страницы. Для точечного управления — noindex на конкретных страницах. Для исключения из результатов поиска при сохранении краулинга — canonical или noindex без nofollow.

📚 Полный гайд

Индексация сайта 2026: robots.txt, sitemap.xml, llms.txt — полный гайд

Q: Почему страница не индексируется, хотя добавлена в sitemap?

Основные причины: страница закрыта через noindex, robots.txt или canonical; дублирует другую страницу; низкое качество контента (Helpful Content фильтр); слабый ссылочный вес страницы; краулинговый бюджет сайта исчерпан. Проверьте через GSC → URL Inspection → статус конкретной страницы.

Q: Сколько времени занимает индексация новой страницы?

Google: 1–7 дней для качественных сайтов с хорошим краулинговым бюджетом. Яндекс: 1–14 дней. Ускорить можно через API Indexing Google (до нескольких часов для соответствующих типов контента), Ping в Яндекс Вебмастер или ускоренную индексацию через запрос в GSC.

Q: Что такое llms.txt и как он влияет на индексацию?

llms.txt — markdown-файл в корне сайта с картой ключевых страниц для LLM-краулеров (OpenAI, YandexGPT, Anthropic, Google Gemini). Влияет не на традиционную поисковую индексацию, а на AI-индексацию: помогает нейросетям найти важный контент без полного краулинга сайта.

Q: Нужно ли добавлять все страницы в sitemap?

Нет. В sitemap включайте только канонические, проиндексированные страницы с качественным контентом. Не включайте: страницы с noindex, редиректы, дубли, сервисные страницы (/admin/, /cart/). Размер: до 50 000 URL и 50 MB на один файл.

Q: Как проверить, что сайт правильно проиндексирован?

Три способа: 1) GSC → Index Coverage — показывает статус всех страниц; 2) Яндекс Вебмастер → Индексирование → Страницы в поиске; 3) оператор site: в поисковике (site:yoursite.ru) — быстрый подсчёт числа проиндексированных страниц.

Полный гайд по индексации сайта 2026: robots.txt синтаксис, типы sitemap.xml, новый стандарт llms.txt, 10 причин почему страница не индексируется, как ускорить индексацию.

Обновлено: 2026-05-02 · автор: Олег Шалыгин

Индексация — процесс, при котором поисковый робот (Googlebot, YandexBot, GPTBot) обнаруживает, сканирует и добавляет страницы вашего сайта в поисковую базу. Без индексации ни позиций, ни AI-видимости нет в принципе: нейросеть не может процитировать страницу, которой нет ни в каком индексе.

В 2026 году «индексация» означает три параллельных процесса: традиционная поисковая индексация (Google/Яндекс), AI-индексация (GPTBot/Anthropic/YandexGPT), и crawl budget management — управление ресурсами на краулинг. Все три управляются разными инструментами.

В этом гайде: как работает индексация, синтаксис robots.txt с реальными примерами, типы sitemap.xml, новый стандарт llms.txt, Search Console и Вебмастер, 10 причин проблем с индексацией и 10 техник ускорения.

Проверьте состояние индексации вашего сайта: audit4seo.ru.

Как работает индексация: Google, Яндекс, AI-системы
robots.txt — синтаксис и правила
sitemap.xml — типы и настройка
llms.txt — стандарт 2026
Search Console и Вебмастер
10 причин почему страница не индексируется
Как ускорить индексацию
Дубли и каннибализация
FAQ
Чек-лист индексации

Как работает индексация: Google, Яндекс, AI-системы

Детальный разбор управления robots.txt и sitemap.xml — в статье «robots.txt и sitemap.xml: полный гайд».

Традиционная индексация: Google и Яндекс

Процесс состоит из трёх этапов:

1. Краулинг (Crawling) Поисковый бот обходит сайт по ссылкам, следуя правилам robots.txt. Googlebot и YandexBot имеют ограниченный краулинговый бюджет на каждый сайт — они не могут краулить бесконечно. Частота краулинга зависит от авторитета домена, частоты обновления контента и скорости отклика сервера.

2. Обработка (Processing) Бот читает HTML, обрабатывает CSS и JavaScript (Google рендерит JS, Яндекс — частично), извлекает текст, ссылки, мета-теги и структурированные данные.

3. Индексирование (Indexing) Обработанный контент добавляется в индекс — огромную базу данных, по которой строится поиск. Страница может быть обнаружена краулером, но не войти в индекс: тонкий контент, дубли, noindex, слабый ссылочный профиль.

AI-индексация: GPTBot, Anthropic-AI, YandexGPT

AI-краулеры работают иначе. Они не строят поисковый индекс для ранжирования — они собирают контент для обучения LLM-моделей или для real-time search. Ключевые боты:

Бот	Компания	User-Agent	Можно ли заблокировать
GPTBot	OpenAI	`GPTBot`	Да, через robots.txt
Anthropic-AI	Anthropic	`anthropic-ai`	Да
Google-Extended	Google	`Google-Extended`	Да
PerplexityBot	Perplexity	`PerplexityBot`	Да
YandexBot	Яндекс	`YandexBot`	Да (но теряете AI-индексацию)

Если вы хотите попасть в нейроответы — не блокируйте AI-краулеры. llms.txt помогает направить их на нужные страницы.

Краулинговый бюджет

Поисковики выделяют каждому сайту ограниченный «бюджет» краулинга. Для небольших сайтов (< 1000 страниц) это обычно не проблема. Для крупных сайтов (100 000+ страниц): - Технические дубли, бесконечные фасеты, URL с параметрами съедают бюджет - Полезный контент краулится реже - Новые страницы индексируются медленнее

Управление бюджетом: robots.txt (закрыть ненужное) + sitemap (показать важное) + устранение дублей.

robots.txt — синтаксис и правила

robots.txt — текстовый файл в корне сайта (https://yoursite.ru/robots.txt), содержащий директивы для поисковых роботов.

Базовая структура

# Разрешить всем роботам
User-agent: *
Allow: /

# Запретить доступ к административной части
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/

# Ссылка на sitemap
Sitemap: https://yoursite.ru/sitemap.xml

Директивы robots.txt

Директива	Назначение	Пример
`User-agent`	Для кого применяются правила	`User-agent: *` (все), `User-agent: Googlebot`
`Disallow`	Запретить краулинг	`Disallow: /search/`
`Allow`	Разрешить (уточнение после Disallow)	`Allow: /search/results/`
`Sitemap`	Указать адрес sitemap	`Sitemap: https://site.ru/sitemap.xml`
`Crawl-delay`	Задержка между запросами	`Crawl-delay: 1` (Яндекс поддерживает, Google нет)

Примеры практических конфигураций

Типичный интернет-магазин:

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /wishlist/
Disallow: /search?
Disallow: /catalog/?sort=
Disallow: /catalog/?page=

Sitemap: https://shop.ru/sitemap.xml
Sitemap: https://shop.ru/sitemap-products.xml

Закрыть AI-краулеры (если не хотите, чтобы OpenAI обучала модели на вашем контенте):

User-agent: GPTBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

# Остальных поисковиков не трогаем
User-agent: *
Allow: /

Разрешить AI-краулерам только публичный контент:

User-agent: GPTBot
Allow: /blog/
Allow: /guides/
Disallow: /

User-agent: *
Allow: /

Типичные ошибки в robots.txt

Disallow: / — закрыт весь сайт. Часто встречается на тестовых серверах, которые «случайно» переехали на продакшн.
Disallow: /catalog/ — закрыт весь каталог интернет-магазина.
Синтаксические ошибки — лишние пробелы, неправильный регистр User-agent.
robots.txt защищает от краулинга, не от индексации — если на страницу есть ссылки, поисковик может добавить её в индекс без краулинга (при этом не зная содержимого).

Проверка robots.txt

Google Search Console → Инструменты → Robots.txt Tester
Яндекс Вебмастер → Инструменты → Анализ robots.txt

sitemap.xml — типы и настройка

Sitemap — XML-файл с картой URL-адресов сайта. Помогает поисковикам найти страницы, которые плохо обнаруживаются через ссылки, и приоритизировать краулинг.

Обязательные атрибуты

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://audit4seo.ru/guides/seo-audit-2026/</loc>
    <lastmod>2026-05-02</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.9</priority>
  </url>
</urlset>

Атрибуты: - <loc> — URL страницы (обязательный) - <lastmod> — дата последнего изменения в формате YYYY-MM-DD - <changefreq> — частота изменений (always, hourly, daily, weekly, monthly, yearly, never) - <priority> — приоритет 0.0–1.0 (только подсказка, не директива)

Практическое замечание: changefreq и priority Google почти не учитывает — заявил об этом официально. Яндекс использует lastmod. Самое важное — актуальный lastmod.

Типы sitemap

Стандартный sitemap: Для обычных HTML-страниц. Максимум 50 000 URL и 50 MB на файл.

Sitemap Index (мастер-файл): Для больших сайтов — один файл содержит ссылки на другие sitemap.

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://site.ru/sitemap-pages.xml</loc>
    <lastmod>2026-05-02</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://site.ru/sitemap-products.xml</loc>
    <lastmod>2026-05-02</lastmod>
  </sitemap>
</sitemapindex>

Image sitemap: Для страниц с важными изображениями (галереи, фотобанки).

<url>
  <loc>https://site.ru/page/</loc>
  <image:image>
    <image:loc>https://site.ru/images/photo.jpg</image:loc>
    <image:title>Описание изображения</image:title>
  </image:image>
</url>

Video sitemap: Для видеоконтента — помогает попасть в Google Video Search.

News sitemap: Для новостных ресурсов — обязателен для Google News. Максимум 1000 статей за последние 2 дня.

<url>
  <loc>https://news.ru/article/123</loc>
  <news:news>
    <news:publication>
      <news:name>News Site</news:name>
      <news:language>ru</news:language>
    </news:publication>
    <news:publication_date>2026-05-02</news:publication_date>
    <news:title>Заголовок новости</news:title>
  </news:news>
</url>

Hreflang sitemap (для многоязычных сайтов):

<url>
  <loc>https://site.ru/page/</loc>
  <xhtml:link rel="alternate" hreflang="ru" href="https://site.ru/page/"/>
  <xhtml:link rel="alternate" hreflang="en" href="https://site.com/page/"/>
  <xhtml:link rel="alternate" hreflang="x-default" href="https://site.com/page/"/>
</url>

Что НЕ включать в sitemap

Страницы с <meta name="robots" content="noindex">
Страницы с редиректами (301/302)
Дубли страниц (только канонические URL)
Страницы с ошибками 4xx/5xx
Служебные страницы: /admin/, /cart/, /checkout/, /search?

llms.txt — стандарт 2026

Это новый стандарт, которого ещё нет у 99,5% российских сайтов. Возможность первопроходца.

Что такое llms.txt

llms.txt — markdown-файл, размещаемый в корне сайта по адресу /llms.txt. Содержит курированную карту самых ценных страниц для LLM-краулеров.

История: - Сентябрь 2024 — Jeremy Howard (Answer.AI) предложил спецификацию - Q4 2024 — поддержан OpenAI и Anthropic - Q1 2025 — поддержан Google Gemini, YandexGPT, Mistral - 2025 — внедрён Anthropic, Stripe, Cloudflare, Vercel и тысячами SaaS-компаний

Официальная спецификация: llmstxt.org

Зачем нужен llms.txt

Польза	Для кого
Экономит токен-бюджет LLM (не краулит весь сайт)	Нейросети
Подсвечивает самый точный и актуальный контент	Нейросети
Даёт семантическую карту сайта	AI-системы
Конкурентное преимущество первопроходца в RU-сегменте	Владелец сайта
Сигнализирует о готовности к AI-эре	E-E-A-T для AI

Структура и формат

# Название сайта

> Краткое описание сайта в 1–2 предложениях. Что это такое и для кого.

## Ключевые разделы

- [Название раздела](https://site.ru/section/): Краткое описание раздела

## Важные страницы

- [Заголовок страницы](https://site.ru/page/): Что именно можно узнать на этой странице
- [Второй гайд](https://site.ru/guide2/): Описание

## О компании

- [О нас](https://site.ru/about/): Информация о компании, опыт, экспертиза
- [Контакты](https://site.ru/contacts/): Контактные данные

Реальный пример для audit4seo.ru

# audit4seo.ru — SEO-аудит сайта

> Сервис автоматического SEO-аудита по 68 параметрам. Проверка технического
> состояния сайта, скорости загрузки, мета-тегов, Schema.org и AI-видимости
> в нейросетях. Для SEO-специалистов, маркетологов и владельцев сайтов в РФ.

## Основные инструменты

- [SEO-аудит сайта](https://audit4seo.ru/): Автоматический аудит 68 параметров за 30 секунд
- [AI Visibility мониторинг](https://neuro.audit4seo.ru/): Мониторинг упоминаний в нейросетях

## Гайды и руководства

- [AI Visibility 2026](https://audit4seo.ru/guides/ai-visibility-2026): Полный гайд по видимости в нейросетях
- [SEO-аудит 2026](https://audit4seo.ru/guides/seo-audit-2026): 14 категорий, топ-15 ошибок, чек-лист 68 проверок
- [Core Web Vitals 2026](https://audit4seo.ru/guides/performance-2026): LCP, INP, CLS — пороги и оптимизация
- [Мета-теги и Schema.org](https://audit4seo.ru/guides/meta-tags-2026): Топ-15 типов, JSON-LD, canonical
- [Индексация 2026](https://audit4seo.ru/guides/indexation-2026): robots.txt, sitemap.xml, llms.txt

## О нас

- [Об авторе](https://audit4seo.ru/about): Олег Шалыгин — SEO-эксперт, 10+ лет практики

Опциональный llms-full.txt

По спецификации можно также создать /llms-full.txt — расширенную версию с полным текстом ключевых страниц для autonomous-агентов, которым нужен больший контекст без краулинга.

llms.txt и Яндекс

YandexGPT распознаёт llms.txt (обнаружено в логах краулеров). Официального подтверждения от Яндекса нет, но файл точно не вредит и, вероятно, помогает Алисе лучше понять структуру сайта.

Search Console и Вебмастер

Google Search Console

Основной инструмент для мониторинга индексации в Google:

Index Coverage (Охват индекса): - «Действительные» — проиндексированные страницы - «Ошибки» — страницы с проблемами краулинга/индексации - «Исключено» — страницы, сознательно или случайно выброшенные из индекса

Ключевые статусы «Исключено»: - Noindex — тег или HTTP-заголовок - Заблокировано robots.txt — краулинг запрещён - Обнаружено, но не проиндексировано — нашли, но качество/ценность недостаточны - Дубликат без выбора каноника — дубль, Google сам выбрал канонический

URL Inspection: Проверить конкретный URL: проиндексирован ли, когда последний раз краулился, какие проблемы найдены. Можно запросить переиндексацию (работает как пинг Googlebot).

Core Web Vitals: Агрегированные данные CrUX по группам URL с проблемами LCP/INP/CLS.

Инструмент проверки sitemap: Статус подачи sitemap, число обнаруженных URL, ошибки.

Яндекс Вебмастер

Аналогичный функционал для Яндекса:

Страницы в поиске: число проиндексированных страниц и динамика.

Ошибки краулинга: недоступные страницы, серверные ошибки, исключённые из-за ошибок.

Индексирование → Переобход: инструмент запроса переиндексации конкретных URL (аналог URL Inspection в GSC).

Структурированные данные: валидация Schema.org — ошибки и предупреждения.

Поиск с Алисой → Видимость в Алисе AI: с апреля 2026 — официальные данные об AI-видимости вашего сайта.

10 причин почему страница не индексируется

Для пошагового решения каждой проблемы — статья «Как ускорить индексацию сайта».

1. noindex тег или HTTP-заголовок

<!-- Блокирует индексацию -->
<meta name="robots" content="noindex">

или в HTTP-заголовке:

X-Robots-Tag: noindex

Диагностика: GSC → URL Inspection → статус «Исключено: noindex». Часто встречается на тестовых серверах, перенесённых на продакшн.

2. Disallow в robots.txt

robots.txt закрывает краулинг страницы. Даже если на страницу есть ссылки — без краулинга полноценной индексации не будет.

Диагностика: GSC → URL Inspection → «Заблокировано robots.txt».

3. Тонкий или дублированный контент

Helpful Content System (интегрирована в Core с марта 2024) фильтрует страницы с: - Контентом < 300–500 слов без уникальной ценности - Скопированным или перефразированным контентом - Контентом, написанным «для поисковиков», а не для людей

Диагностика: GSC → «Обнаружено, но не проиндексировано». Решение: улучшить контент или добавить noindex + canonical на дубль.

4. Canonical указывает на другую страницу

Если страница A имеет canonical на страницу B — поисковик считает A дублем и индексирует B.

Диагностика: проверить canonical через GSC → URL Inspection → Canonical URL.

5. Медленный TTFB или недоступный сервер

Если сервер не отвечает или отвечает слишком медленно (> 5 сек) — Googlebot прерывает краулинг и не индексирует страницу.

Диагностика: GSC → «Ошибка сервера (5xx)».

6. Нет входящих ссылок (страница-«сирота»)

Поисковики находят страницы через ссылки. «Сирота» — страница, на которую никто не ссылается — краулится редко или не краулится вообще.

Решение: добавить ссылку с главной, категории или соответствующего материала.

7. Слишком много URL в фасетной навигации

Интернет-магазины с фасетными фильтрами генерируют тысячи комбинаций URL (/catalog/?brand=samsung&color=black&price=5000-10000). Это «съедает» краулинговый бюджет, не давая роботу добраться до важных страниц.

Решение: закрыть параметрические URL в robots.txt + canonical на чистый URL фасета.

8. Страница за формой или авторизацией

Контент за <form> без прямого URL, контент за авторизацией, AJAX-контент без статических URL — всё это Googlebot не видит (YandexBot ещё хуже).

Решение: ключевой контент должен быть доступен по прямому URL без авторизации.

9. JavaScript-рендеринг без SSR

Сайты на React/Vue/Angular без SSR (Server-Side Rendering) рендерят контент только в браузере. Googlebot рендерит JavaScript, но это медленнее и происходит в отдельной очереди. YandexBot рендерит JS хуже.

Решение: SSR (Next.js, Nuxt.js) или Static Generation для ключевых страниц.

10. Недавно созданная страница / новый домен

Новые домены и новые страницы требуют времени. Googlebot: 1–7 дней. YandexBot: 1–14 дней. Ускорение возможно через методы из следующего раздела.

Как ускорить индексацию

1. Google Indexing API (самый быстрый метод)

Google Indexing API позволяет уведомить Google о новой или изменённой странице. Официально доступен для: - JobPosting страниц - BroadcastEvent (livestream)

Неофициально многие используют для любых страниц — Google обрабатывает за несколько часов, но поддержка ограниченная. Для легального применения: страницы с JobPosting Schema.

2. Request Indexing в GSC

Google Search Console → URL Inspection → [Введите URL] → «Запросить индексацию».

Работает для конкретных URL
Лимит: ~10–20 запросов в день
Обработка: обычно 1–3 дня

3. Ping sitemap в Яндекс Вебмастер

Яндекс Вебмастер → Инструменты → Переобход страниц → добавить URL. Для массового обновления — повторно подать sitemap через Вебмастер → Инструменты → Sitemap.

4. Внутренние ссылки на новую страницу

Добавьте ссылку с хорошо краулируемых страниц (главная, категория, популярные статьи). Googlebot «видит» новую страницу при следующем краулинге уже проиндексированных страниц.

5. Внешние ссылки

Упомяните новую страницу в соцсетях (VK, Telegram) или на форумах. Googlebot краулит внешние источники и находит новые URL.

6. Повышение краулингового бюджета

Для крупных сайтов: закройте ненужное в robots.txt, устраните бесконечные параметры, уберите дубли. Освободившийся бюджет пойдёт на важные страницы.

7. Улучшение TTFB (< 200 мс)

Быстрый сервер = Googlebot краулит больше страниц за тот же визит. CDN, кэширование, оптимизация backend-запросов.

8. Регулярное обновление контента

Поисковики краулят часто обновляемые сайты чаще. Обновляйте lastmod в sitemap при реальных изменениях контента.

9. llms.txt с актуальными URL

Для AI-краулеров: llms.txt направляет боты сразу на ключевые страницы. Не заменяет традиционную индексацию, но ускоряет AI-индексацию.

10. Сокращение глубины вложенности

Страницы глубже 4 кликов от главной краулятся реже. Добавьте ссылки из верхних уровней навигации или из popular-раздела на важные глубокие страницы.

Дубли и каннибализация

Дубли страниц

Дубли — несколько URL с одинаковым или почти одинаковым контентом. Проблема: поисковик не знает, какую страницу показывать → обе страницы ранжируются хуже.

Типичные источники дублей: - site.ru/page/ и site.ru/page (со слешем / без) - http://site.ru и https://site.ru - www.site.ru и site.ru - /catalog/?sort=price и /catalog/ (с параметрами) - Пагинация без canonical (/catalog/page/2/)

Решение: canonical-теги + 301-редиректы для технических дублей. Подробно — в гайде «Мета-теги и Schema.org 2026».

Каннибализация ключевых слов

Каннибализация — несколько страниц сайта конкурируют за один и тот же поисковый запрос. Результат: обе страницы «ослаблены», позиции нестабильны.

Диагностика: 1. В GSC → Performance → введите запрос → посмотрите «Страницы» — несколько URLs? 2. В Яндекс Вебмастер → Запросы → проверить, не ранжируются ли несколько страниц по одному запросу

Решение: - Объединить две похожие страницы в одну (301-редирект со слабой на сильную) - Переориентировать одну страницу на смежный, но другой запрос - Явное указание canonical

FAQ

Почему страница не индексируется, хотя добавлена в sitemap?

Основные причины: noindex тег, robots.txt, canonical на другую страницу, тонкий контент (Helpful Content фильтр), слабый ссылочный вес. Проверьте через GSC → URL Inspection.

Сколько времени занимает индексация новой страницы?

Google: 1–7 дней для качественных сайтов. Яндекс: 1–14 дней. Ускорение: GSC → URL Inspection → Запросить индексацию; Яндекс Вебмастер → Переобход страниц; внутренние ссылки с краулируемых страниц.

Что такое llms.txt и как он влияет на индексацию?

llms.txt — markdown-файл с картой ключевых страниц для LLM-краулеров. Влияет на AI-индексацию (нейросети), а не на традиционную поисковую. Помогает нейросетям найти важный контент без полного краулинга.

Можно ли закрыть часть сайта от индексации?

Да. robots.txt закрывает папки от краулинга. noindex закрывает конкретные страницы от индексации. Canonical направляет на «правильную» версию дубля.

Нужно ли добавлять все страницы в sitemap?

Нет. Только канонические, проиндексированные страницы с качественным контентом. Не включайте: noindex, редиректы, дубли, сервисные страницы.

Как проверить, что сайт правильно проиндексирован?

GSC → Index Coverage; Яндекс Вебмастер → Страницы в поиске; оператор site:yoursite.ru в поиске.

Чек-лист индексации

Автоматическая проверка индексации: audit4seo.ru.

robots.txt

[ ] Файл доступен по адресу /robots.txt
[ ] Нет Disallow: / для всех роботов
[ ] Нет Disallow: на ключевые разделы (каталог, блог, статьи)
[ ] Параметрические URL каталога закрыты
[ ] Административные разделы закрыты (/admin/, /cart/)
[ ] Присутствуют ссылки на все sitemap
[ ] Проверен через GSC → Robots.txt Tester

sitemap.xml

[ ] Файл доступен по /sitemap.xml
[ ] Содержит только канонические URL
[ ] Нет URL с noindex в sitemap
[ ] Нет редиректов в sitemap
[ ] lastmod соответствует реальной дате обновления
[ ] Подан в GSC и Яндекс Вебмастер
[ ] Нет ошибок в GSC → Sitemaps

llms.txt

[ ] Файл создан и доступен по /llms.txt
[ ] Содержит краткое описание сайта (1–2 предложения)
[ ] Перечислены 10–20 ключевых страниц с описаниями
[ ] Все ссылки актуальны (нет 404)
[ ] Соответствует спецификации llmstxt.org

Индексация страниц

[ ] Число проиндексированных страниц в GSC соответствует ожидаемому
[ ] В GSC нет страниц с критичными ошибками
[ ] Нет noindex на контентных страницах
[ ] Нет «сирот» — страниц без входящих ссылок
[ ] Все важные страницы достижимы за ≤ 3 клика от главной

AI-индексация

[ ] AI-краулеры (GPTBot, Anthropic-AI) не заблокированы (если хотите AI-видимости)
[ ] Яндекс Вебмастер → Поиск с Алисой → Видимость подключён
[ ] llms.txt актуален и содержит приоритетный контент

Дубли и canonical

[ ] Все страницы имеют самоссылающийся canonical
[ ] Технические дубли решены 301-редиректами
[ ] В GSC нет предупреждений «Дубликат без выбора каноника»
[ ] Пагинация обработана (canonical на первую страницу или rel=prev/next)

Проверьте состояние индексации вашего сайта: audit4seo.ru — 50+ параметров, включая robots.txt, sitemap и доступность llms.txt.

Источники

{
  "@context": "https://schema.org",
  "@graph": [
    {
      "@type": "Article",
      "headline": "Индексация сайта 2026: robots.txt, sitemap.xml, llms.txt — полный гайд",
      "description": "Полный гайд по индексации 2026: robots.txt, типы sitemap.xml, новый стандарт llms.txt, 10 причин проблем с индексацией, методы ускорения.",
      "author": {
        "@type": "Person",
        "name": "Олег Шалыгин",
        "url": "https://audit4seo.ru/about"
      },
      "publisher": {
        "@type": "Organization",
        "name": "audit4seo.ru",
        "url": "https://audit4seo.ru",
        "logo": {"@type": "ImageObject", "url": "https://audit4seo.ru/logo.png"}
      },
      "datePublished": "2026-05-02",
      "dateModified": "2026-05-02",
      "mainEntityOfPage": "https://audit4seo.ru/guides/indexation-2026"
    },
    {
      "@type": "BreadcrumbList",
      "itemListElement": [
        {"@type": "ListItem", "position": 1, "name": "Главная", "item": "https://audit4seo.ru/"},
        {"@type": "ListItem", "position": 2, "name": "Гайды", "item": "https://audit4seo.ru/guides/"},
        {"@type": "ListItem", "position": 3, "name": "Индексация сайта 2026"}
      ]
    },
    {
      "@type": "FAQPage",
      "mainEntity": [
        {
          "@type": "Question",
          "name": "Почему страница не индексируется, хотя добавлена в sitemap?",
          "acceptedAnswer": {
            "@type": "Answer",
            "text": "Основные причины: noindex тег, robots.txt Disallow, canonical на другую страницу, тонкий контент (Helpful Content фильтр), слабый ссылочный вес. Проверьте через GSC → URL Inspection."
          }
        },
        {
          "@type": "Question",
          "name": "Что такое llms.txt и как он влияет на индексацию?",
          "acceptedAnswer": {
            "@type": "Answer",
            "text": "llms.txt — markdown-файл с картой ключевых страниц для LLM-краулеров (OpenAI, YandexGPT, Anthropic). Влияет на AI-индексацию: помогает нейросетям найти важный контент без полного краулинга. На российских сайтах внедрён менее чем у 0,5%."
          }
        },
        {
          "@type": "Question",
          "name": "Сколько времени занимает индексация новой страницы?",
          "acceptedAnswer": {
            "@type": "Answer",
            "text": "Google: 1–7 дней для качественных сайтов. Яндекс: 1–14 дней. Ускорение: GSC → URL Inspection → Запросить индексацию; Яндекс Вебмастер → Переобход страниц; добавить внутренние ссылки с краулируемых страниц."
          }
        },
        {
          "@type": "Question",
          "name": "Нужно ли добавлять все страницы в sitemap?",
          "acceptedAnswer": {
            "@type": "Answer",
            "text": "Нет. В sitemap включайте только канонические страницы с качественным контентом. Не включайте: noindex страницы, редиректы, дубли, сервисные URL."
          }
        }
      ]
    }
  ]
}

Подробные разделы гайда

Каждый блок — отдельный детальный материал по теме.

robots.txt и sitemap.xml

Читать → 02

Как ускорить индексацию

Читать →

Полезные инструменты

→ Проверить индексацию

Оглавление

Как работает индексация: Google, Яндекс, AI-системы

Традиционная индексация: Google и Яндекс

AI-индексация: GPTBot, Anthropic-AI, YandexGPT

Краулинговый бюджет

robots.txt — синтаксис и правила

Базовая структура

Директивы robots.txt

Примеры практических конфигураций

Типичные ошибки в robots.txt

Проверка robots.txt

sitemap.xml — типы и настройка

Обязательные атрибуты

Типы sitemap

Что НЕ включать в sitemap

llms.txt — стандарт 2026

Что такое llms.txt

Зачем нужен llms.txt

Структура и формат

Реальный пример для audit4seo.ru

Опциональный llms-full.txt

llms.txt и Яндекс

Search Console и Вебмастер

Google Search Console

Яндекс Вебмастер

10 причин почему страница не индексируется

1. noindex тег или HTTP-заголовок

2. Disallow в robots.txt

3. Тонкий или дублированный контент

4. Canonical указывает на другую страницу

5. Медленный TTFB или недоступный сервер

6. Нет входящих ссылок (страница-«сирота»)

7. Слишком много URL в фасетной навигации

8. Страница за формой или авторизацией

9. JavaScript-рендеринг без SSR

10. Недавно созданная страница / новый домен

Как ускорить индексацию

1. Google Indexing API (самый быстрый метод)

2. Request Indexing в GSC

3. Ping sitemap в Яндекс Вебмастер

4. Внутренние ссылки на новую страницу

5. Внешние ссылки

6. Повышение краулингового бюджета

7. Улучшение TTFB (< 200 мс)

8. Регулярное обновление контента

9. llms.txt с актуальными URL

10. Сокращение глубины вложенности

Дубли и каннибализация

Дубли страниц

Каннибализация ключевых слов

FAQ

Чек-лист индексации

robots.txt

sitemap.xml

llms.txt

Индексация страниц

AI-индексация

Дубли и canonical

Источники

Подробные разделы гайда

robots.txt и sitemap.xml

Как ускорить индексацию

Полезные инструменты