Robots.txt: що це і як працює для сайту (Googlebot, search engine crawlers, crawler traffic)
Що таке robots txt? Це технічний файл з правилами доступу для пошукових роботів: він нагадує Googlebot та іншим search engine crawlers, які розділи сайту можна сканувати, а які краще не чіпати. По суті, це один із базових інструментів контролю індексації та розподілу crawler traffic у рамках системного просування сайту.
Визначення та роль файлу robots.txt для сайту
Файл robots txt — це текстовий документ, який містить директиви (наприклад, Disallow та Allow) для різних роботів. Коли бот приходить на сайт, він спочатку перевіряє robots.txt і вже потім вирішує, які URL запитувати. Це впливає на:
- економію краулінгового бюджету (менше зайвих запитів);
- пріоритизацію сканування важливих сторінок;
- зниження навантаження на сервер рахунок управління crawler traffic.
Важливо: robots.txt керує скануванням, а не «гарантовано забирає сторінку з пошуку». Для цього часто потрібні інші механіки (про це в блоці про noindex і X-Robots-Tag у наступних розділах).
Де повинен лежати robots.txt і які протоколи враховуються
Robots.txt розміщують у top-level directory (корені сайту), щоб він був доступний за адресою: https://example.com/robots.txt. Якщо файл лежить глибше (наприклад /folder/robots.txt), роботи його ігнорують.
Також враховуйте, що правила застосовуються на рівні хоста та протоколу. Тобто http і https - це різні версії, і при міграціях важливо перевіряти доступність та актуальність файлу. У рамках robots.txt specification зустрічаються кейси для різних схем, включаючи ftp, але для SEO практично ключові — HTTP/HTTPS.
Як Googlebot та інші краулери читають правила (robots.txt specification та UTF-8)
за robots.txt specification бот вибирає блок правил по User-agent (наприклад, Googlebot) та застосовує найбільш відповідні директиви. Часто використовуються:
Disallow - заборона сканування колії; Allow – дозвіл усередині забороненого шляху (корисно для точкових винятків).
Файл повинен бути коректно закодований: використовуйте utf-8 robots.txt, щоб правила та шляхи читалися однозначно, особливо якщо URL зустрічаються нестандартні символи.
Robots.txt - це про контроль сканування та ресурсів, а не про "приховати все від Google".
У Web-Raketa ми розглядаємо robots.txt як частину «повного посібника з індексації сайту»: він допомагає вибудувати стратегію, а не хаос - направити роботів на сторінки, які дають зростання органічного трафіку та трафік, який конвертує.

Налаштування Robots.txt для SEO: Disallow/Allow, як закрити сторінки та приклади
Базовий синтаксис: User-agent, Disallow, Allow
Якщо ви вже розібралися, що таке robots txt, наступний крок - налаштувати його так, щоб пошукові роботи витрачали час на сторінки, які реально дають продаж. Логіка проста: ми керуємо обходом (crawl), щоб посилення видимості в Google відбувалося рахунок пріоритетної індексації ключових категорій, карток і контенту, а чи не нескінченних технічних URL.
Базові директиви:
- User-agent — до якого робота застосовуються правила (наприклад, Googlebot або для всіх);
- Disallow – заборона сканування зазначеного шляху;
- Allow — виняток із заборони (дозвіл усередині забороненої зони).
Важливий принцип: налаштування robots txt для seo – це стратегія, а чи не хаос. Закривайте тільки те, що не повинно з'їдати краулінговий бюджет і не несе пошукової цінності.
Як закрити сторінки в robots.txt: типові завдання для магазинів та сервісів
Найчастіше в Україні це актуально для інтернет-магазинів із фільтрами та параметрами, де утворюються тисячі дублів. Також варто обмежувати обхід внутрішнього пошуку та службових розділів.
Приклади завдань, які зазвичай закривають:
1) фільтри/сортування з параметрами (щоб не плодити дублікати); 2) внутрішній пошук; 3) кошик, кабінет, оформлення замовлення; 4) тимчасові техрозділи (наприклад, /tmp/).
При цьому важливо не закрити випадково CSS/JS або зображення, якщо вони потрібні для коректного рендерингу та оцінки сторінки, інакше можна втратити якість індексації.
Robots.txt приклад: акуратне керування обходом без втрат
Нижче приклад, який можна адаптувати під ваш сайт:
| Рядок | Що робить |
|---|---|
| User-agent: | Правила для всіх роботів |
| Disallow: /search | Закриває внутрішній пошук |
| Disallow: /cart | Закриває кошик |
| Disallow: /? | Обмежує параметризовані URL (потрібно перевіряти, щоб не “задушити” важливі сторінки) |
| Allow: /catalog/ | Залишає відкритими ключові розділи |
Обмеження: навіть ідеально налаштований robots.txt не видаляє сторінку з індексу, якщо вона вже потрапила до пошуку або на неї ведуть зовнішні посилання. Для видалення/контролю індексації потрібні інші інструменти (наприклад, meta robots noindex або HTTP-заголовки), але robots.txt залишається критичним для трафіку, який конвертує, він допомагає роботу швидше знаходити і частіше обходити комерційно важливі сторінки.
"Правильний robots.txt - це про фокус: менше сміття в обході, більше уваги до сторінок, які приносять заявки."

Помилки Robots.txt та суміжні інструменти: noindex vs robots.txt, X-Robots-Tag, password protection
Часті помилки Robots.txt та як їх діагностувати
Розуміння, що таке robots txt, важливо, але ще важливіше - не припуститися помилок, які ріжуть органічний трафік. Насправді ми найчастіше бачимо проблеми, коли файл «випадково» блокує те, що має ранжуватися.
Типові помилки robots txt:
- блокування важливих розділів (категорій, карток, блогу) через загальний Disallow;
- закриття CSS/JS/зображень, через що Google гірше рендерит сторінку і може неправильно оцінити контент;
- конфлікт Allow/Disallow (Правила складені так, що робот вибирає не той маршрут обходу);
- помилковий шлях (друкарська помилка, неправильний слеш, неврахований регістр символів в URL);
- неправильне кодування (рекомендуємо UTF-8 без «екзотики»), через що правила читаються неоднозначно;
- файлу немає в корені сайту або він недоступний (404/403) - тоді роботи діють "за замовчуванням".
Діагностика: перевірте доступність /robots.txt, порівняйте фактичні URL з правилами та перегляньте звіти в Google Search Console (сканування, індексування). Якщо видимість просіла — почніть із перевірки robots.txt та заблокованих ресурсів.
“Robots.txt повинен керувати обходом, а не випадково вимикати ваш бізнес із пошуку.”
Noindex vs robots.txt: що вибрати для індексації
Robots.txt керує скануванням: робот може не зайти на сторінку, але це не гарантує, що URL-адреса не з'явиться в пошуку (наприклад, якщо на нього є посилання). Noindex (meta robots) — сигнал про індексацію: сторінку можна сканувати, але не додавати в індекс.
Практичний орієнтир:
Якщо завдання не витрачати краулінговий бюджет на «сміттєві» URL (фільтри, пошук) — використовуйте robots.txt. Якщо завдання - прибрати сторінку з видачі, але залишити доступною для обходу (наприклад, сторінка подяки або технічний дубль) - частіше підходить noindex.
X-Robots-Tag та password protection: коли robots.txt не підходить
X-Robots-Tag - це HTTP-заголовок, який дозволяє задавати правила індексації для файлів та відповідей сервера (PDF, зображення, або цілі шаблони), де метатег додати складно. Він зручний для системного контролю індексації лише на рівні сервера.
А ось для приватного контенту robots.txt не годиться: це публічний файл, який швидше "підказує", де лежить закрите.
Якщо потрібно реально обмежити доступ (особисті кабінети, прайси для партнерів, адмінка) — використовуйте password protection (HTTP auth), обмеження за ролями CMS або закриття на рівні сервера/файрвола. Це надійно та безпечно, на відміну від «маскування» через robots.txt.
FAQ та висновки: чек-лист Robots.txt для результативного SEO
FAQ: часті питання про robots.txt
Чи потрібний robots.txt завжди? Якщо сайт зовсім простий і він не має «сміттєвих» URL (пошук, фільтри, техрозділи), він не критичний, але на практиці майже будь-якому комерційному проекту простіше тримати базовий файл докорінно і керувати обходом усвідомлено. Це знижує ризик хаосу при зростанні сайту та допомагає зберегти трафік, який конвертує.
Що робити під час міграції http→https? Перевірте, що файл доступний саме за https-версією докорінно: /robots.txt. Переконайтеся, що правила не блокують нові URL-адреси, а також що пошукові роботи (в тому числі Googlebot) отримують 200 OK, а не редиректи/403. Після міграції корисно знову прогнати перевірку в Google Search Console і переглянути звіти щодо сканування.
Чи можна закрити від індексації вже проіндексоване? Robots.txt сам не гарантує видалення з індексу. Для деіндексації частіше використовують meta robots noindex або X-Robots-Tag, а також інструменти видалення в Search Console для тимчасового приховання. Robots.txt тут - про обмеження сканування, а не про "стерти з видачі".
Як перевірити роботу для Googlebot? Використовуйте Google Search Console: перевірку URL та інструменти діагностики robots.txt (якщо доступні у вашій версії інтерфейсу), а також логи сервера, щоб побачити фактичні заходи роботів та які URL-адреси вони запитують.
Як зменшити crawler traffic без втрати SEO? Закривайте у robots.txt низькоцінні та нескінченні простори URL (параметри, внутрішній пошук, техсторінки), але не блокуйте важливі категорії/картки та ресурси рендерингу. Сенс - направити обхід на сторінки, які дають зростання органічного трафіку та продажу.
Висновки: robots.txt як частина стратегії, а не хаосу
Якщо коротко, що таке robots txt для бізнесу: це інструмент сканування, який допомагає побудувати прозорий підхід до просування. Він не замінює оптимізацію, контент та лінкбілдинг, але підтримує системне просування сайту – особливо коли проект зростає та кількість URL збільшується в рази. У зв'язці з noindex, X-Robots-Tag та коректною архітектурою це стає частиною «повного посібника з індексації сайту» та опорою для цифрового зростання бізнесу.
"Результативне SEO починається з контролю: що індексується, що сканується і навіщо."
Фінальний чек-лист налаштування robots.txt
Перевірте, що файл лежить в корені сайту і віддається з кодом 200 OK, а кодування UTF-8. Переконайтеся, що правила зрозумілі: прописані User-agent, використовуються осмислені Disallow/Allow і немає випадкових заборон для комерційних розділів. Окремо перевірте, чи не закриті CSS/JS, важливі зображення та інші ресурси, що впливають на рендеринг. На міграціях та редизайнах звіряйте robots.txt в першу чергу, щоб не втратити видимість у Google. Для видалення з індексу використовуйте noindex або X-Robots-Tag, а для приватного доступу - password protection. І нарешті, регулярно звіряйте правила з фактичною поведінкою роботів за даними Search Console та логами: так ви утримуєте контроль над обходом та отримуєте SEO для бізнесу без зайвого шуму.