Robots.txt: полное руководство по созданию и настройке для SEO

Файл robots.txt — это фундаментальный инструмент технической SEO-оптимизации, который напрямую влияет на видимость вашего сайта в поисковых системах. В этом подробном руководстве мы разберём не только базовые принципы работы, но и продвинутые техники настройки, которые используют ведущие SEO-специалисты.

Содержание

Что такое robots.txt и зачем он нужен?

Robots.txt — это текстовый файл, расположенный в корневой директории сайта, который:

Управляет доступом поисковых роботов к разделам сайта
Оптимизирует краулинговый бюджет — направляет ботов на важные страницы
Защищает конфиденциальные данные от индексации
Предотвращает проблемы с дублированным контентом

Где и как размещается файл robots.txt?

Для корректной работы файл должен:

Находиться строго в корне домена (https://example.com/robots.txt)
Иметь имя в нижнем регистре (Robots.TXT — не сработает)
Быть доступным без авторизации и HTTP-авторизации
Иметь кодировку UTF-8 (для поддержки Unicode-символов)

Полный справочник директив robots.txt

Основные директивы:

User-agent — указание конкретного поискового робота (* для всех)
Disallow — запрет индексации указанного пути
Allow — исключение из запрета (приоритетнее Disallow)
Sitemap — указание пути к XML-карте сайта

Специальные директивы:

Clean-param — для динамических URL с параметрами
Crawl-delay — регулировка частоты запросов (не поддерживается Google)
Host — указание зеркала сайта (устарело в Яндексе)

Что нужно закрывать от индексации: подробный чек-лист

Список разделов, которые обычно закрывают в robots.txt:

Административные панели CMS (/wp-admin/, /bitrix/)
Служебные файлы (/includes/, /lib/, /css/)
Страницы с динамическими параметрами (?session_id, ?ref=)
Дубли страниц (/?utm_source, /print/)
Страницы-заглушки (404, «Спасибо за заказ»)
Тестовые и черновые версии (/test/, /draft/)
Результаты поиска по сайту (/search/)
Персональные данные пользователей (/account/, /profile/)

Продвинутые техники работы с robots.txt

1. Управление краулинговым бюджетом

Используйте комбинации Allow/Disallow для:

Приоритезации сканирования важных страниц
Блокировки бесконечных пространств URL (календари, фильтры)
Ограничения доступа к страницам с тонким контентом

2. Работа с динамическими параметрами

Пример использования Clean-param:


Clean-param: utm_source / 

Clean-param: ref /products/

3. Индивидуальные правила для разных поисковых систем

Пример раздельных правил:


User-agent: Googlebot

Disallow: /private/



User-agent: Yandex

Disallow: /temp/

Распространённые ошибки и их последствия

Ошибка	Последствие	Решение
Disallow: / (полная блокировка)	Сайт исчезает из поиска	Срочное исправление файла
Блокировка CSS/JS	Ухудшение индексации	Разрешить доступ к статике
Неправильные пути	Частичная индексация	Проверка относительных путей
Кириллица в путях	Не работают правила	Использовать Punycode

Инструменты для проверки и анализа

Google Search Console — тестер robots.txt
Яндекс.Вебмастер — анализ файла
Screaming Frog — проверка доступности
Robots.txt Generator — автоматическое создание

Особенности для популярных CMS

WordPress:


User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Allow: /wp-admin/admin-ajax.php

1С-Битрикс:


User-agent: *

Disallow: /bitrix/

Disallow: /auth/

Disallow: /personal/

OpenCart:


User-agent: *

Disallow: /admin/

Disallow: /system/

Disallow: /catalog/

Часто задаваемые вопросы

Можно ли защитить контент с помощью robots.txt?

Нет, robots.txt не является средством защиты — запрещённые страницы могут быть проиндексированы, если на них есть ссылки.

Как быстро изменения в robots.txt вступают в силу?

После обнаружения файла поисковым роботом (от нескольких часов до нескольких дней).

Нужно ли обновлять robots.txt при изменениях на сайте?

Да, при добавлении новых разделов, которые нужно закрыть от индексации.

Может ли неправильный robots.txt снизить позиции сайта?

Косвенно — через проблемы с индексацией важных страниц или перерасход краулингового бюджета.

Шаблоны robots.txt для разных типов сайтов

Интернет-магазин:


User-agent: *

Disallow: /cart/

Disallow: /checkout/

Disallow: /search/

Sitemap: https://example.com/sitemap.xml

Корпоративный сайт:


User-agent: *

Disallow: /private/

Disallow: /tmp/

Allow: /images/

Sitemap: https://example.com/sitemap.xml

Блог:


User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Disallow: /search/

Sitemap: https://example.com/sitemap.xml

Robots.txt: инструкция по созданию идеального файла для SEO

Что такое robots.txt и зачем он нужен?

Где и как размещается файл robots.txt?

Полный справочник директив robots.txt

Основные директивы:

Специальные директивы:

Что нужно закрывать от индексации: подробный чек-лист

Продвинутые техники работы с robots.txt

1. Управление краулинговым бюджетом

2. Работа с динамическими параметрами

3. Индивидуальные правила для разных поисковых систем

Распространённые ошибки и их последствия

Инструменты для проверки и анализа

Особенности для популярных CMS

WordPress:

1С-Битрикс:

OpenCart:

Часто задаваемые вопросы

Можно ли защитить контент с помощью robots.txt?

Как быстро изменения в robots.txt вступают в силу?

Нужно ли обновлять robots.txt при изменениях на сайте?

Может ли неправильный robots.txt снизить позиции сайта?

Шаблоны robots.txt для разных типов сайтов

Интернет-магазин:

Корпоративный сайт:

Блог: