Robots.txt: что это и как работает для сайта (Googlebot, search engine crawlers, crawler traffic)
Что такое robots txt? Это технический файл с правилами доступа для поисковых роботов: он подсказывает Googlebot и другим search engine crawlers, какие разделы сайта можно сканировать, а какие — лучше не трогать. По сути, это один из базовых инструментов контроля индексации и распределения crawler traffic в рамках системного продвижения сайта.
Определение и роль файла robots.txt для сайта
Файл robots txt — это текстовый документ, который содержит директивы (например, Disallow и Allow) для разных роботов. Когда бот приходит на сайт, он в первую очередь проверяет robots.txt и уже затем решает, какие URL запрашивать. Это влияет на:
- экономию краулингового бюджета (меньше лишних запросов);
- приоритизацию сканирования важных страниц;
- снижение нагрузки на сервер за счёт управления crawler traffic.
Важно: robots.txt управляет сканированием, а не «гарантированно убирает страницу из поиска». Для этого часто нужны другие механики (об этом — в блоке про noindex и X-Robots-Tag в следующих разделах).
Где должен лежать robots.txt и какие протоколы учитываются
Robots.txt размещают в top-level directory (корне сайта), чтобы он был доступен по адресу вида: https://example.com/robots.txt. Если файл лежит глубже (например, /folder/robots.txt), роботы его игнорируют.
Также учитывайте, что правила применяются на уровне хоста и протокола. То есть http и https — это разные версии, и при миграциях важно проверять доступность и актуальность файла. В рамках robots.txt specification встречаются кейсы для разных схем, включая ftp, но для SEO на практике ключевые — HTTP/HTTPS.
Как Googlebot и другие краулеры читают правила (robots.txt specification и UTF-8)
По robots.txt specification бот выбирает блок правил по User-agent (например, Googlebot) и применяет наиболее подходящие директивы. Часто используются:
Disallow — запрет сканирования пути; Allow — разрешение внутри запрещённого пути (полезно для точечных исключений).
Файл должен быть корректно закодирован: используйте utf-8 robots.txt, чтобы правила и пути читались однозначно, особенно если в URL встречаются нестандартные символы.
Robots.txt — это про контроль сканирования и ресурсов, а не про “скрыть всё от Google”.
В Web-Raketa мы рассматриваем robots.txt как часть «полного руководства по индексации сайта»: он помогает выстроить стратегию, а не хаос — направить роботов на страницы, которые дают рост органического трафика и трафик, который конвертирует.

Настройка Robots.txt для SEO: Disallow/Allow, как закрыть страницы и примеры
Базовый синтаксис: User-agent, Disallow, Allow
Если вы уже разобрались, что такое robots txt, следующий шаг — настроить его так, чтобы поисковые роботы тратили время на страницы, которые реально дают продажи. Логика простая: мы управляем обходом (crawl), чтобы усиление видимости в Google происходило за счёт приоритетной индексации ключевых категорий, карточек и контента, а не бесконечных технических URL.
Базовые директивы:
- User-agent — к какому роботу применяются правила (например, Googlebot или для всех);
- Disallow — запрет сканирования указанного пути;
- Allow — исключение из запрета (разрешение внутри запрещённой зоны).
Важный принцип: настройка robots txt для seo — это стратегия, а не хаос. Закрывайте только то, что не должно «съедать» краулинговый бюджет и не несёт поисковой ценности.
Как закрыть страницы в robots.txt: типовые задачи для магазинов и сервисов
Чаще всего в Украине это актуально для интернет-магазинов с фильтрами и параметрами, где образуются тысячи дублей. Также стоит ограничивать обход внутреннего поиска и служебных разделов.
Примеры задач, которые обычно закрывают:
1) фильтры/сортировки с параметрами (чтобы не плодить дубликаты); 2) внутренний поиск; 3) корзина, кабинет, оформление заказа; 4) временные техразделы (например, /tmp/).
При этом важно не закрыть случайно CSS/JS или изображения, если они нужны для корректного рендеринга и оценки страницы — иначе можно потерять качество индексации.
Robots.txt пример: аккуратное управление обходом без потерь
Ниже — пример, который можно адаптировать под ваш сайт:
| Строка | Что делает |
|---|---|
| User-agent: | Правила для всех роботов |
| Disallow: /search | Закрывает внутренний поиск |
| Disallow: /cart | Закрывает корзину |
| Disallow: /? | Ограничивает параметризованные URL (нужно проверять, чтобы не “задушить” важные страницы) |
| Allow: /catalog/ | Оставляет открытыми ключевые разделы |
Ограничение: даже идеально настроенный robots.txt не удалит страницу из индекса, если она уже попала в поиск или на неё ведут внешние ссылки. Для удаления/контроля индексации нужны другие инструменты (например, meta robots noindex или HTTP-заголовки), но robots.txt остаётся критичным для трафика, который конвертирует — он помогает роботу быстрее находить и чаще обходить коммерчески важные страницы.
“Правильный robots.txt — это про фокус: меньше мусора в обходе, больше внимания к страницам, которые приносят заявки.”

Ошибки Robots.txt и смежные инструменты: noindex vs robots.txt, X-Robots-Tag, password protection
Частые ошибки Robots.txt и как их диагностировать
Понимание, что такое robots txt, важно, но ещё важнее — не допустить ошибок, которые режут органический трафик. На практике мы чаще всего видим проблемы, когда файл «случайно» блокирует то, что должно ранжироваться.
Типовые ошибки robots txt:
- блокировка важных разделов (категорий, карточек, блога) через слишком общий Disallow;
- закрытие CSS/JS/изображений, из‑за чего Google хуже рендерит страницу и может неверно оценить контент;
- конфликт Allow/Disallow (правила составлены так, что робот выбирает не тот маршрут обхода);
- ошибочный путь (опечатка, неверный слэш, неучтённый регистр символов в URL);
- неверная кодировка (рекомендуем UTF‑8 без «экзотики»), из‑за чего правила читаются неоднозначно;
- файла нет в корне сайта или он недоступен (404/403) — тогда роботы действуют «по умолчанию».
Диагностика: проверьте доступность /robots.txt, сравните фактические URL с правилами и посмотрите отчёты в Google Search Console (сканирование, индексирование). Если видимость просела — начните с проверки robots.txt и заблокированных ресурсов.
“Robots.txt должен управлять обходом, а не случайно выключать ваш бизнес из поиска.”
Noindex vs robots.txt: что выбрать для индексации
Robots.txt управляет сканированием: робот может не зайти на страницу, но это не гарантирует, что URL не появится в поиске (например, если на него есть ссылки). Noindex (meta robots) — сигнал именно про индексацию: страницу можно сканировать, но не добавлять в индекс.
Практический ориентир:
Если задача — не тратить краулинговый бюджет на «мусорные» URL (фильтры, поиск) — используйте robots.txt. Если задача — убрать страницу из выдачи, но оставить доступной для обхода (например, страница благодарности или технический дубль) — чаще подходит noindex.
X-Robots-Tag и password protection: когда robots.txt не подходит
X-Robots-Tag — это HTTP-заголовок, который позволяет задавать правила индексации для файлов и ответов сервера (PDF, изображения, или целые шаблоны), где метатег добавить сложно. Он удобен для системного контроля индексации на уровне сервера.
А вот для приватного контента robots.txt не годится: это публичный файл, который скорее «подсказывает», где лежит закрытое.
Если нужно реально ограничить доступ (личные кабинеты, прайсы для партнёров, админка) — используйте password protection (HTTP auth), ограничения по ролям в CMS или закрытие на уровне сервера/файрвола. Это надёжно и безопасно, в отличие от «маскировки» через robots.txt.
FAQ и выводы: чек-лист Robots.txt для результативного SEO
FAQ: частые вопросы про robots.txt
Нужен ли robots.txt всегда? Если сайт совсем простой и у него нет «мусорных» URL (поиск, фильтры, техразделы), он не критичен, но на практике почти любому коммерческому проекту проще держать базовый файл в корне и управлять обходом осознанно. Это снижает риск хаоса при росте сайта и помогает сохранить трафик, который конвертирует.
Что делать при миграции http→https? Проверьте, что файл доступен именно по https-версии в корне: /robots.txt. Убедитесь, что правила не блокируют новые URL, а также что поисковые роботы (в том числе Googlebot) получают 200 OK, а не редиректы/403. После миграции полезно заново прогнать проверку в Google Search Console и посмотреть отчёты по сканированию.
Можно ли закрыть от индексации уже проиндексированное? Robots.txt сам по себе не гарантирует удаление из индекса. Для деиндексации чаще используют meta robots noindex или X-Robots-Tag, а также инструменты удаления в Search Console для временного скрытия. Robots.txt здесь — про ограничение сканирования, а не про «стереть из выдачи».
Как проверить работу для Googlebot? Используйте Google Search Console: проверку URL и инструменты диагностики robots.txt (если доступны в вашей версии интерфейса), а также логи сервера, чтобы увидеть фактические заходы роботов и какие URL они запрашивают.
Как уменьшить crawler traffic без потери SEO? Закрывайте в robots.txt низкоценные и бесконечные пространства URL (параметры, внутренний поиск, техстраницы), но не блокируйте важные категории/карточки и ресурсы рендеринга. Смысл — направить обход на страницы, которые дают рост органического трафика и продажи.
Выводы: robots.txt как часть стратегии, а не хаоса
Если коротко, что такое robots txt для бизнеса: это инструмент контроля сканирования, который помогает выстроить прозрачный подход к продвижению. Он не заменяет оптимизацию, контент и линкбилдинг, но поддерживает системное продвижение сайта — особенно когда проект растёт и количество URL увеличивается в разы. В связке с noindex, X-Robots-Tag и корректной архитектурой это становится частью «полного руководства по индексации сайта» и опорой для цифрового роста бизнеса.
“Результативное SEO начинается с контроля: что индексируется, что сканируется и зачем.”
Финальный чек-лист настройки robots.txt
Проверьте, что файл лежит в корне сайта и отдаётся с кодом 200 OK, а кодировка — UTF‑8. Убедитесь, что правила понятны: прописаны User-agent, применяются осмысленные Disallow/Allow и нет случайных запретов для коммерческих разделов. Отдельно проверьте, что не закрыты CSS/JS, важные изображения и другие ресурсы, влияющие на рендеринг. На миграциях и редизайнах сверяйте robots.txt в первую очередь, чтобы не потерять видимость в Google. Для удаления из индекса используйте noindex или X‑Robots‑Tag, а для приватного доступа — password protection. И наконец, регулярно сверяйте правила с фактическим поведением роботов по данным Search Console и логам: так вы удерживаете контроль над обходом и получаете SEO для бизнеса без лишнего шума.