Robots.txt: що це і як працює для сайту (Googlebot, search engine crawlers, crawler traffic)

Що таке robots txt? Це технічний файл з правилами доступу для пошукових роботів: він нагадує Googlebot та іншим search engine crawlers, які розділи сайту можна сканувати, а які краще не чіпати. По суті, це один із базових інструментів контролю індексації та розподілу crawler traffic у рамках системного просування сайту.

Визначення та роль файлу robots.txt для сайту

Файл robots txt — це текстовий документ, який містить директиви (наприклад, Disallow та Allow) для різних роботів. Коли бот приходить на сайт, він спочатку перевіряє robots.txt і вже потім вирішує, які URL запитувати. Це впливає на:

  • економію краулінгового бюджету (менше зайвих запитів);
  • пріоритизацію сканування важливих сторінок;
  • зниження навантаження на сервер рахунок управління crawler traffic.

Важливо: robots.txt керує скануванням, а не «гарантовано забирає сторінку з пошуку». Для цього часто потрібні інші механіки (про це в блоці про noindex і X-Robots-Tag у наступних розділах).

Де повинен лежати robots.txt і які протоколи враховуються

Robots.txt розміщують у top-level directory (корені сайту), щоб він був доступний за адресою: https://example.com/robots.txt. Якщо файл лежить глибше (наприклад /folder/robots.txt), роботи його ігнорують.

Також враховуйте, що правила застосовуються на рівні хоста та протоколу. Тобто http і https - це різні версії, і при міграціях важливо перевіряти доступність та актуальність файлу. У рамках robots.txt specification зустрічаються кейси для різних схем, включаючи ftp, але для SEO практично ключові — HTTP/HTTPS.

Як Googlebot та інші краулери читають правила (robots.txt specification та UTF-8)

за robots.txt specification бот вибирає блок правил по User-agent (наприклад, Googlebot) та застосовує найбільш відповідні директиви. Часто використовуються:

Disallow - заборона сканування колії; Allow – дозвіл усередині забороненого шляху (корисно для точкових винятків).

Файл повинен бути коректно закодований: використовуйте utf-8 robots.txt, щоб правила та шляхи читалися однозначно, особливо якщо URL зустрічаються нестандартні символи.

Robots.txt - це про контроль сканування та ресурсів, а не про "приховати все від Google".

У Web-Raketa ми розглядаємо robots.txt як частину «повного посібника з індексації сайту»: він допомагає вибудувати стратегію, а не хаос - направити роботів на сторінки, які дають зростання органічного трафіку та трафік, який конвертує.

Robots.txt: що це і як працює для сайту (Googlebot, search engine crawlers, <em>crawler traffic</em> )

Налаштування Robots.txt для SEO: Disallow/Allow, як закрити сторінки та приклади

Базовий синтаксис: User-agent, Disallow, Allow

Якщо ви вже розібралися, що таке robots txt, наступний крок - налаштувати його так, щоб пошукові роботи витрачали час на сторінки, які реально дають продаж. Логіка проста: ми керуємо обходом (crawl), щоб посилення видимості в Google відбувалося рахунок пріоритетної індексації ключових категорій, карток і контенту, а чи не нескінченних технічних URL.

Базові директиви:

  • User-agent — до якого робота застосовуються правила (наприклад, Googlebot або для всіх);
  • Disallow – заборона сканування зазначеного шляху;
  • Allow — виняток із заборони (дозвіл усередині забороненої зони).

Важливий принцип: налаштування robots txt для seo – це стратегія, а чи не хаос. Закривайте тільки те, що не повинно з'їдати краулінговий бюджет і не несе пошукової цінності.

Як закрити сторінки в robots.txt: типові завдання для магазинів та сервісів

Найчастіше в Україні це актуально для інтернет-магазинів із фільтрами та параметрами, де утворюються тисячі дублів. Також варто обмежувати обхід внутрішнього пошуку та службових розділів.

Приклади завдань, які зазвичай закривають:

1) фільтри/сортування з параметрами (щоб не плодити дублікати); 2) внутрішній пошук; 3) кошик, кабінет, оформлення замовлення; 4) тимчасові техрозділи (наприклад, /tmp/).

При цьому важливо не закрити випадково CSS/JS або зображення, якщо вони потрібні для коректного рендерингу та оцінки сторінки, інакше можна втратити якість індексації.

Robots.txt приклад: акуратне керування обходом без втрат

Нижче приклад, який можна адаптувати під ваш сайт:

Рядок Що робить
User-agent: Правила для всіх роботів
Disallow: /search Закриває внутрішній пошук
Disallow: /cart Закриває кошик
Disallow: /? Обмежує параметризовані URL (потрібно перевіряти, щоб не “задушити” важливі сторінки)
Allow: /catalog/ Залишає відкритими ключові розділи

Обмеження: навіть ідеально налаштований robots.txt не видаляє сторінку з індексу, якщо вона вже потрапила до пошуку або на неї ведуть зовнішні посилання. Для видалення/контролю індексації потрібні інші інструменти (наприклад, meta robots noindex або HTTP-заголовки), але robots.txt залишається критичним для трафіку, який конвертує, він допомагає роботу швидше знаходити і частіше обходити комерційно важливі сторінки.

"Правильний robots.txt - це про фокус: менше сміття в обході, більше уваги до сторінок, які приносять заявки."

Налаштування Robots.txt для SEO: Disallow/ <em>Allow</em> , як закрити сторінки та приклади

Помилки Robots.txt та суміжні інструменти: noindex vs robots.txt, X-Robots-Tag, password protection

Часті помилки Robots.txt та як їх діагностувати

Розуміння, що таке robots txt, важливо, але ще важливіше - не припуститися помилок, які ріжуть органічний трафік. Насправді ми найчастіше бачимо проблеми, коли файл «випадково» блокує те, що має ранжуватися.

Типові помилки robots txt:

  • блокування важливих розділів (категорій, карток, блогу) через загальний Disallow;
  • закриття CSS/JS/зображень, через що Google гірше рендерит сторінку і може неправильно оцінити контент;
  • конфлікт Allow/Disallow (Правила складені так, що робот вибирає не той маршрут обходу);
  • помилковий шлях (друкарська помилка, неправильний слеш, неврахований регістр символів в URL);
  • неправильне кодування (рекомендуємо UTF-8 без «екзотики»), через що правила читаються неоднозначно;
  • файлу немає в корені сайту або він недоступний (404/403) - тоді роботи діють "за замовчуванням".

Діагностика: перевірте доступність /robots.txt, порівняйте фактичні URL з правилами та перегляньте звіти в Google Search Console (сканування, індексування). Якщо видимість просіла — почніть із перевірки robots.txt та заблокованих ресурсів.

“Robots.txt повинен керувати обходом, а не випадково вимикати ваш бізнес із пошуку.”

Noindex vs robots.txt: що вибрати для індексації

Robots.txt керує скануванням: робот може не зайти на сторінку, але це не гарантує, що URL-адреса не з'явиться в пошуку (наприклад, якщо на нього є посилання). Noindex (meta robots) — сигнал про індексацію: сторінку можна сканувати, але не додавати в індекс.

Практичний орієнтир:

Якщо завдання не витрачати краулінговий бюджет на «сміттєві» URL (фільтри, пошук) — використовуйте robots.txt. Якщо завдання - прибрати сторінку з видачі, але залишити доступною для обходу (наприклад, сторінка подяки або технічний дубль) - частіше підходить noindex.

X-Robots-Tag та password protection: коли robots.txt не підходить

X-Robots-Tag - це HTTP-заголовок, який дозволяє задавати правила індексації для файлів та відповідей сервера (PDF, зображення, або цілі шаблони), де метатег додати складно. Він зручний для системного контролю індексації лише на рівні сервера.

А ось для приватного контенту robots.txt не годиться: це публічний файл, який швидше "підказує", де лежить закрите.

Якщо потрібно реально обмежити доступ (особисті кабінети, прайси для партнерів, адмінка) — використовуйте password protection (HTTP auth), обмеження за ролями CMS або закриття на рівні сервера/файрвола. Це надійно та безпечно, на відміну від «маскування» через robots.txt.

FAQ та висновки: чек-лист Robots.txt для результативного SEO

FAQ: часті питання про robots.txt

Чи потрібний robots.txt завжди? Якщо сайт зовсім простий і він не має «сміттєвих» URL (пошук, фільтри, техрозділи), він не критичний, але на практиці майже будь-якому комерційному проекту простіше тримати базовий файл докорінно і керувати обходом усвідомлено. Це знижує ризик хаосу при зростанні сайту та допомагає зберегти трафік, який конвертує.

Що робити під час міграції http→https? Перевірте, що файл доступний саме за https-версією докорінно: /robots.txt. Переконайтеся, що правила не блокують нові URL-адреси, а також що пошукові роботи (в тому числі Googlebot) отримують 200 OK, а не редиректи/403. Після міграції корисно знову прогнати перевірку в Google Search Console і переглянути звіти щодо сканування.

Чи можна закрити від індексації вже проіндексоване? Robots.txt сам не гарантує видалення з індексу. Для деіндексації частіше використовують meta robots noindex або X-Robots-Tag, а також інструменти видалення в Search Console для тимчасового приховання. Robots.txt тут - про обмеження сканування, а не про "стерти з видачі".

Як перевірити роботу для Googlebot? Використовуйте Google Search Console: перевірку URL та інструменти діагностики robots.txt (якщо доступні у вашій версії інтерфейсу), а також логи сервера, щоб побачити фактичні заходи роботів та які URL-адреси вони запитують.

Як зменшити crawler traffic без втрати SEO? Закривайте у robots.txt низькоцінні та нескінченні простори URL (параметри, внутрішній пошук, техсторінки), але не блокуйте важливі категорії/картки та ресурси рендерингу. Сенс - направити обхід на сторінки, які дають зростання органічного трафіку та продажу.

Висновки: robots.txt як частина стратегії, а не хаосу

Якщо коротко, що таке robots txt для бізнесу: це інструмент сканування, який допомагає побудувати прозорий підхід до просування. Він не замінює оптимізацію, контент та лінкбілдинг, але підтримує системне просування сайту – особливо коли проект зростає та кількість URL збільшується в рази. У зв'язці з noindex, X-Robots-Tag та коректною архітектурою це стає частиною «повного посібника з індексації сайту» та опорою для цифрового зростання бізнесу.

"Результативне SEO починається з контролю: що індексується, що сканується і навіщо."

Фінальний чек-лист налаштування robots.txt

Перевірте, що файл лежить в корені сайту і віддається з кодом 200 OK, а кодування UTF-8. Переконайтеся, що правила зрозумілі: прописані User-agent, використовуються осмислені Disallow/Allow і немає випадкових заборон для комерційних розділів. Окремо перевірте, чи не закриті CSS/JS, важливі зображення та інші ресурси, що впливають на рендеринг. На міграціях та редизайнах звіряйте robots.txt в першу чергу, щоб не втратити видимість у Google. Для видалення з індексу використовуйте noindex або X-Robots-Tag, а для приватного доступу - password protection. І нарешті, регулярно звіряйте правила з фактичною поведінкою роботів за даними Search Console та логами: так ви утримуєте контроль над обходом та отримуєте SEO для бізнесу без зайвого шуму.

Цікаве на тему