Файл robots.txt — это фундаментальный инструмент технической SEO-оптимизации, который напрямую влияет на видимость вашего сайта в поисковых системах. В этом подробном руководстве мы разберём не только базовые принципы работы, но и продвинутые техники настройки, которые используют ведущие SEO-специалисты.
Что такое robots.txt и зачем он нужен?
Robots.txt — это текстовый файл, расположенный в корневой директории сайта, который:
- Управляет доступом поисковых роботов к разделам сайта
- Оптимизирует краулинговый бюджет — направляет ботов на важные страницы
- Защищает конфиденциальные данные от индексации
- Предотвращает проблемы с дублированным контентом
Где и как размещается файл robots.txt?
Для корректной работы файл должен:
- Находиться строго в корне домена (https://example.com/robots.txt)
- Иметь имя в нижнем регистре (Robots.TXT — не сработает)
- Быть доступным без авторизации и HTTP-авторизации
- Иметь кодировку UTF-8 (для поддержки Unicode-символов)
Полный справочник директив robots.txt
Основные директивы:
- User-agent — указание конкретного поискового робота (* для всех)
- Disallow — запрет индексации указанного пути
- Allow — исключение из запрета (приоритетнее Disallow)
- Sitemap — указание пути к XML-карте сайта
Специальные директивы:
- Clean-param — для динамических URL с параметрами
- Crawl-delay — регулировка частоты запросов (не поддерживается Google)
- Host — указание зеркала сайта (устарело в Яндексе)
Что нужно закрывать от индексации: подробный чек-лист
Список разделов, которые обычно закрывают в robots.txt:
- Административные панели CMS (/wp-admin/, /bitrix/)
- Служебные файлы (/includes/, /lib/, /css/)
- Страницы с динамическими параметрами (?session_id, ?ref=)
- Дубли страниц (/?utm_source, /print/)
- Страницы-заглушки (404, «Спасибо за заказ»)
- Тестовые и черновые версии (/test/, /draft/)
- Результаты поиска по сайту (/search/)
- Персональные данные пользователей (/account/, /profile/)
Продвинутые техники работы с robots.txt
1. Управление краулинговым бюджетом
Используйте комбинации Allow/Disallow для:
- Приоритезации сканирования важных страниц
- Блокировки бесконечных пространств URL (календари, фильтры)
- Ограничения доступа к страницам с тонким контентом
2. Работа с динамическими параметрами
Пример использования Clean-param:
Clean-param: utm_source / Clean-param: ref /products/
3. Индивидуальные правила для разных поисковых систем
Пример раздельных правил:
User-agent: Googlebot Disallow: /private/ User-agent: Yandex Disallow: /temp/
Распространённые ошибки и их последствия
Ошибка | Последствие | Решение |
---|---|---|
Disallow: / (полная блокировка) | Сайт исчезает из поиска | Срочное исправление файла |
Блокировка CSS/JS | Ухудшение индексации | Разрешить доступ к статике |
Неправильные пути | Частичная индексация | Проверка относительных путей |
Кириллица в путях | Не работают правила | Использовать Punycode |
Инструменты для проверки и анализа
- Google Search Console — тестер robots.txt
- Яндекс.Вебмастер — анализ файла
- Screaming Frog — проверка доступности
- Robots.txt Generator — автоматическое создание
Особенности для популярных CMS
WordPress:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Allow: /wp-admin/admin-ajax.php
1С-Битрикс:
User-agent: * Disallow: /bitrix/ Disallow: /auth/ Disallow: /personal/
OpenCart:
User-agent: * Disallow: /admin/ Disallow: /system/ Disallow: /catalog/
Часто задаваемые вопросы
Можно ли защитить контент с помощью robots.txt?
Нет, robots.txt не является средством защиты — запрещённые страницы могут быть проиндексированы, если на них есть ссылки.
Как быстро изменения в robots.txt вступают в силу?
После обнаружения файла поисковым роботом (от нескольких часов до нескольких дней).
Нужно ли обновлять robots.txt при изменениях на сайте?
Да, при добавлении новых разделов, которые нужно закрыть от индексации.
Может ли неправильный robots.txt снизить позиции сайта?
Косвенно — через проблемы с индексацией важных страниц или перерасход краулингового бюджета.
Шаблоны robots.txt для разных типов сайтов
Интернет-магазин:
User-agent: * Disallow: /cart/ Disallow: /checkout/ Disallow: /search/ Sitemap: https://example.com/sitemap.xml
Корпоративный сайт:
User-agent: * Disallow: /private/ Disallow: /tmp/ Allow: /images/ Sitemap: https://example.com/sitemap.xml
Блог:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /search/ Sitemap: https://example.com/sitemap.xml