Проверка robots.txt, sitemap.xml и llms.txt
SEO-файлы в корне сайта: robots.txt, sitemap.xml, llms.txt (AI-стандарт), security.txt. Найдём блокировку AI-ботов, валидность XML, отсутствие llms.txt — окно возможностей 2026.
Что мы проверяем
robots.txt — правила для краулеров
Стандартный файл по адресу /robots.txt, в котором сайт сообщает поисковикам что разрешено индексировать, а что нет. Без него — поисковики обходят весь сайт без правил. С неправильным — могут полностью выпасть из индекса (известный кейс с Disallow: / на проде).
Мы парсим файл, считаем User-agent блоки, Allow/Disallow, Sitemap-ссылки, Host и Я-специфичный Clean-param. Отдельно проверяем 18 AI-ботов (GPTBot, Google-Extended, anthropic-ai, PerplexityBot и др.) — какие заблокированы, какие явно разрешены.
sitemap.xml — карта URL для индексации
XML-файл со списком всех важных URL сайта. Помогает поисковику быстро узнать о новых страницах. Мы проверяем: есть ли в корне (/sitemap.xml), валидный ли XML, является ли sitemap-index (для крупных сайтов с >50000 URL), сколько URL внутри, есть ли lastmod и priority, упомянут ли в robots.txt.
llms.txt — стандарт 2026 для AI-индексации
Главная фишка нашего чекера. Стандарт от Answer.AI (Jeremy Howard, сентябрь 2024) — markdown-файл по адресу /llms.txt с курированной картой ценного контента для AI-моделей. Поддержан OpenAI, Anthropic, Google Gemini, Mistral, YandexGPT (негласно).
Внедрение на RU-сайтах менее 0.5%. Это окно возможностей: добавив llms.txt сейчас, вы увеличиваете шансы на цитирование в ChatGPT Search, Perplexity, Gemini, AI Overview Google.
Дополнительно проверяем /llms-full.txt — расширенная версия с полным контентом, для autonomous AI-агентов.
security.txt — RFC 9116
Файл по адресу /.well-known/security.txt с контактом для responsible disclosure уязвимостей. Required для гос-сайтов США, рекомендован для всех. Минимум: Contact: и Expires:.
Что значит Score
- 80–100 — все основные файлы есть и валидны
- 50–79 — базовые есть, не хватает llms.txt или security.txt
- 0–49 — нет robots.txt или sitemap.xml — критическая проблема индексации
FAQ
Где взять готовый llms.txt для моего сайта?
Можно сгенерировать через Mintlify (если у вас docs.example.com), или вручную. Минимум по стандарту: # Brand Name, потом > Краткое описание, потом ## Docs со списком ссылок - [Page](url): description.
Что лучше — Disallow GPTBot или явный Allow?
Современная практика 2026: блокировать тренировочных AI-ботов (GPTBot, Google-Extended, anthropic-ai, CCBot) и разрешать поисковых (ChatGPT-User, Perplexity-User, OAI-SearchBot). Это даёт попадание в AI-выдачу без попадания в обучающие датасеты.
Почему sitemap не находит мои новые страницы в Google?
Sitemap — подсказка, не гарантия. Google индексирует с задержкой 1-30 дней. Ускорить: запросить indexing через GSC, использовать IndexNow API (Я + Bing), добавить внутренние ссылки на новую страницу с уже индексированных.
Когда нужен sitemap-index?
Если у вас более 50000 URL ИЛИ один файл sitemap превышает 50MB. Тогда вместо одного огромного файла — sitemap-index, который ссылается на дочерние sitemap-файлы (по разделам или по типам контента).
Я.Турбо файлы тоже нужны?
Нет. Я.Турбо закрыт в 2024 году. Никаких новых турбо-файлов делать не нужно, существующие лучше удалить из robots/sitemap.
Связанные инструменты
- Анализатор HTTP-заголовков — security headers
- Проверка DNS-записей — A, MX, SPF, DKIM, DMARC
- Проверка SSL-сертификата — TLS, цепочка, ключ
- WHOIS домена
- Полный SEO-аудит сайта по 80 параметрам