Как работает Robots.txt

Когда поисковый робот (Googlebot, YandexBot и другие) заходит на сайт, он сначала обращается к файлу Robots.txt, если таковой имеется. Этот файл размещается в корневой директории сайта и содержит инструкции, разрешающие или запрещающие доступ к определенным разделам.
Файл Robots.txt не заставляет поисковую систему следовать его правилам, а лишь рекомендует, как обходить сайт. Большинство крупных поисковиков уважают эти директивы, но некоторые роботы (например, спам-боты) могут их игнорировать.
Основные директивы Robots.txt
Файл Robots.txt состоит из набора инструкций, которые применяются к разным поисковым ботам. Рассмотрим основные директивы:
User-agent
Определяет, к какому поисковому роботу применяются правила.
Пример:
User-agent: Googlebot
Если указать User-agent: *, то правила будут применяться ко всем поисковым системам.
Disallow
Запрещает индексировать указанный раздел или страницу.
Пример:
User-agent: *
Disallow: /admin/
Disallow: /private/
Это значит, что все поисковики не смогут сканировать папки /admin/ и /private/.
Allow
Позволяет индексацию конкретного URL в папке, запрещенной директивой Disallow (актуально для Google).
Пример:
User-agent: Googlebot
Disallow: /images/
Allow: /images/logo.jpg
В этом случае Googlebot не сможет индексировать папку /images/, но сможет видеть файл logo.jpg.
Sitemap
Позволяет указать путь к файлу sitemap.xml, что помогает поисковикам быстрее находить страницы.
Пример:
Sitemap: https://example.com/sitemap.xml
Crawl-delay
Устанавливает задержку между запросами к серверу, чтобы снизить нагрузку (используется в Яндексе).
Пример:
User-agent: Yandex
Crawl-delay: 5
Значение 5 означает, что Яндекс-бот будет делать паузу в 5 секунд между запросами.
Где размещать и как проверить Robots.txt
Файл Robots.txt должен находиться в корневой директории сайта и быть доступен по адресу:
https://example.com/robots.txt
Инструменты для проверки правильности настроек
- Google Search Console (раздел «Файл robots.txt»).
- Яндекс.Вебмастер (анализатор файла robots.txt).
- Онлайн-сервисы вроде https://www.robotstxt.org/.
Типичные ошибки в Robots.txt
Некоторые веб-мастера случайно запрещают индексацию всего сайта, что делает его невидимым в поиске. Чтобы избежать этого, проверяйте настройки перед публикацией.
- Ошибки в написании директив. Пропущенные двоеточия или пробелы могут привести к некорректной работе файла.
- Запрет CSS и JS-файлов. Если в Robots.txt запрещена индексация CSS и JS, это может повлиять на рендеринг страницы. Чтобы поисковики могли корректно анализировать дизайн и функционал сайта, не стоит блокировать эти файлы.
- Противоречивые инструкции. Если один раздел запрещен для всех поисковиков, а потом разрешен для Googlebot, разные поисковые системы могут обрабатывать файл по-разному. Лучше избегать таких ситуаций.