Файл $robots.txt$ — це текстовий файл, який знаходиться в кореневому каталозі вашого сайту (наприклад, $вашсайт.com/robots.txt$). Він виконує роль “путівника” для пошукових роботів (краулерів), вказуючи їм, які частини сайту дозволено або заборонено сканувати.
Важливо: Файл $robots.txt$ контролює лише сканування, а не індексацію. Щоб гарантовано заборонити індексацію сторінки, необхідно використовувати мета-тег
noindex.
1. Базова структура файлу
Файл $robots.txt$ складається з одного або більше блоків інструкцій. Кожен блок починається з директиви User-agent.
| Директива | Призначення |
User-agent: | Визначає, до якого саме робота стосується наступний набір правил. |
Disallow: | Забороняє сканування певного каталогу або файлу. |
Allow: | Дозволяє сканування певного каталогу або файлу, який інакше був би заборонений директивою Disallow. |
Sitemap: | Вказує шлях до карти сайту $sitemap.xml$. |
2. Приклади основних правил
А. Дозвіл сканування всього сайту
Це стандартний та найпоширеніший випадок. Ви дозволяєте всім пошуковим системам сканувати весь ваш сайт.
User-agent: *
Disallow:
User-agent: *— Правило стосується всіх роботів.Disallow:— Відсутність значення означає, що немає заборонених сторінок.
Б. Заборона сканування всього сайту
Використовується рідко, зазвичай під час розробки сайту або технічного обслуговування.
User-agent: *
Disallow: /
Disallow: /— Забороняє доступ до кореневого каталогу, що поширюється на весь сайт.
В. Заборона сканування певного каталогу
Якщо ви не хочете, щоб роботи сканували, наприклад, папку з адміністративними файлами або зображеннями.
User-agent: *
Disallow: /admin/
Disallow: /temp/
- Зверніть увагу: Скісний знак (слеш)
/наприкінці важливий.Disallow: /adminзаборонить також файли на кшталт/admin-tools.html.Disallow: /admin/заборонить лише вміст каталогу.
Г. Заборона сканування певного файлу
Заборона доступу до конкретного файлу (наприклад, файлу PDF або певного скрипту).
User-agent: *
Disallow: /private-docs.pdf
Disallow: /search/results.html
Д. Правила для конкретного пошукового робота
Ви можете встановлювати унікальні правила для конкретних роботів, наприклад, лише для Google (Googlebot) або лише для робота, що сканує зображення (Googlebot-Image).
User-agent: Googlebot
Disallow: /images/private/
User-agent: Bingbot
Disallow: /old-pages/
3. Використання символів-замінників
$robots.txt$ підтримує два важливі символи-замінники:
| Символ | Значення | Приклад | Пояснення |
| * | Будь-яка послідовність символів. | Disallow: /*? | Забороняє сканування всіх URL-адрес із параметрами запиту (що містять ?). |
| **$** | Позначає кінець URL. | Disallow: /search/$ | Забороняє сканування лише/search/ , але дозволяє /search/products/. |
4. Вказівка карти сайту ($Sitemap$)
Завжди вказуйте шлях до вашої карти сайту. Це допомагає пошуковим системам швидше знайти всі важливі сторінки.
User-agent: *
Disallow: /private/
Sitemap: https://вашсайт.com/sitemap.xml
Sitemap: https://вашсайт.com/sitemap_products.xml
5. Поради та найкращі практики
- Розміщення: Файл має бути розташований лише в кореневому каталозі сайту (
http://вашсайт.com/robots.txt). - Використовуйте
noindexдля заборони індексації: Не використовуйте $robots.txt$ для приховування конфіденційних сторінок. Якщо сторінка заборонена для сканування у $robots.txt$, але на неї є зовнішнє посилання, вона все одно може бути проіндексована, хоча і без контенту. Для гарантованої заборони індексації використовуйте мета-тег<meta name="robots" content="noindex">безпосередньо у коді сторінки. - Тестування: Завжди перевіряйте свій файл $robots.txt$ за допомогою інструменту Тестер $robots.txt$ у Google Search Console, щоб переконатися, що ви не заблокували випадково важливі сторінки.
Правильне налаштування $robots.txt$ є ключем до ефективного використання бюджету сканування вашого сайту.