Проверка robots.txt, sitemap.xml и llms.txt

SEO-файлы в корне сайта: robots.txt, sitemap.xml, llms.txt (AI-стандарт), security.txt. Найдём блокировку AI-ботов, валидность XML, отсутствие llms.txt — окно возможностей 2026.

Что мы проверяем

robots.txt — правила для краулеров

Стандартный файл по адресу /robots.txt, в котором сайт сообщает поисковикам что разрешено индексировать, а что нет. Без него — поисковики обходят весь сайт без правил. С неправильным — могут полностью выпасть из индекса (известный кейс с Disallow: / на проде).

Мы парсим файл, считаем User-agent блоки, Allow/Disallow, Sitemap-ссылки, Host и Я-специфичный Clean-param. Отдельно проверяем 18 AI-ботов (GPTBot, Google-Extended, anthropic-ai, PerplexityBot и др.) — какие заблокированы, какие явно разрешены.

sitemap.xml — карта URL для индексации

XML-файл со списком всех важных URL сайта. Помогает поисковику быстро узнать о новых страницах. Мы проверяем: есть ли в корне (/sitemap.xml), валидный ли XML, является ли sitemap-index (для крупных сайтов с >50000 URL), сколько URL внутри, есть ли lastmod и priority, упомянут ли в robots.txt.

llms.txt — стандарт 2026 для AI-индексации

Главная фишка нашего чекера. Стандарт от Answer.AI (Jeremy Howard, сентябрь 2024) — markdown-файл по адресу /llms.txt с курированной картой ценного контента для AI-моделей. Поддержан OpenAI, Anthropic, Google Gemini, Mistral, YandexGPT (негласно).

Внедрение на RU-сайтах менее 0.5%. Это окно возможностей: добавив llms.txt сейчас, вы увеличиваете шансы на цитирование в ChatGPT Search, Perplexity, Gemini, AI Overview Google.

Дополнительно проверяем /llms-full.txt — расширенная версия с полным контентом, для autonomous AI-агентов.

security.txt — RFC 9116

Файл по адресу /.well-known/security.txt с контактом для responsible disclosure уязвимостей. Required для гос-сайтов США, рекомендован для всех. Минимум: Contact: и Expires:.

Что значит Score

  • 80–100 — все основные файлы есть и валидны
  • 50–79 — базовые есть, не хватает llms.txt или security.txt
  • 0–49 — нет robots.txt или sitemap.xml — критическая проблема индексации

FAQ

Где взять готовый llms.txt для моего сайта?

Можно сгенерировать через Mintlify (если у вас docs.example.com), или вручную. Минимум по стандарту: # Brand Name, потом > Краткое описание, потом ## Docs со списком ссылок - [Page](url): description.

Что лучше — Disallow GPTBot или явный Allow?

Современная практика 2026: блокировать тренировочных AI-ботов (GPTBot, Google-Extended, anthropic-ai, CCBot) и разрешать поисковых (ChatGPT-User, Perplexity-User, OAI-SearchBot). Это даёт попадание в AI-выдачу без попадания в обучающие датасеты.

Почему sitemap не находит мои новые страницы в Google?

Sitemap — подсказка, не гарантия. Google индексирует с задержкой 1-30 дней. Ускорить: запросить indexing через GSC, использовать IndexNow API (Я + Bing), добавить внутренние ссылки на новую страницу с уже индексированных.

Когда нужен sitemap-index?

Если у вас более 50000 URL ИЛИ один файл sitemap превышает 50MB. Тогда вместо одного огромного файла — sitemap-index, который ссылается на дочерние sitemap-файлы (по разделам или по типам контента).

Я.Турбо файлы тоже нужны?

Нет. Я.Турбо закрыт в 2024 году. Никаких новых турбо-файлов делать не нужно, существующие лучше удалить из robots/sitemap.

Связанные инструменты