Що таке robots.txt та як його правильно налаштувати

#Seo

24.10.2023

342

Що таке robots.txt та як його правильно налаштувати

Robots.txt - важливий інструмент для керування індексацією вашого веб-сайту. Він дозволяє вам точно вказати пошуковим системам, які частини вашого сайту можна індексувати, а які - ні. Необхідно правильно налаштувати цей файл, щоб забезпечити оптимальну видимість та захист конфіденційної інформації.

Чому необхідний robots.txt?

Robots.txt важливий з кількох причин:

Контроль індексації: Власники сайтів можуть використовувати robots.txt, щоб вказати, які частини сайту слід індексувати, а які - ні. Наприклад, ви можете бажати виключити з індексації адміністративні сторінки чи конфіденційний контент. Такі сторінки не несуть корисної інформації для користувачів, тому вони можуть “засмічувати” видачу пошукової системи, що загалом є поганим знаком для пошукових систем
Захист конфіденційності: Якщо на вашому сайті є конфіденційна інформація, яку ви не хочете показувати пошуковим системам, robots.txt дозволяє це зробити. Наприклад на сайті можуть бути завантажені різні документи, особисті дані користувачів тощо. І якщо вони потравлять до індексу, то кожна людина зможе знайти їх і відкрити
Економія пропускної здатності: Краулери пошукових систем витрачають пропускну здатність при скануванні сайту. Таким чином, наприклад якщо на вашому сайті є 50 тисяч сторінок, а необхідних для сканування 10 тисяч, то індексація вашого сайту буде займати набагато більше часу. Таким чином використовуючи robots.txt, ви можете вказати, які сторінки не потрібно сканувати, що дозволить не тільки заощадити ресурси й пришвидшити сканування сайту, а й блокуватиме потрапляння в індекс некоректних сторінок.

Таким чином, підсумуючи, robots.txt необхідний аби вказувати пошуковим системам, що треба індексувати, а що ні. Наприклад продуктові, сервісні та категорійні сторінки потрібно всі показувати Google, а ось сторінки авторизації, технічні сторінки шаблонів, особиста інформація користувачів - це все потрібно закривати.

Що означають записи в robots.txt?

Для того, щоб дослідити що саме означає той чи інший запис, візьмемо для прикладу заповнений robots.txt:

Приклад robots.txt

Загалом є 4 записи які необхідно знати:

User-agent: * - даний запис показує до яких пошукових систем ми звертаємось. Позначка * означає, що звертаємось до всіх пошукових систем.
Disallow: /*?set_filter=* - даний запис позначає директорії які необхідно закрити від індексації. В такому випадку необхідно закрити всі посилання які містять в собі /*?set_filter=* - зірки означають будь-який контент який там знаходиться, приклад:
https://domain.com/123?set_filter=123/
https://domain.com/category:farby?set_filter=colir:zelenyy/
Такі сторінки будуть закриті.
Allow: /local/*.gif - такий запис позначає відкриті категорії для індексації.
Загалом пошукові системи будуть індексувати всі сторінки, які не заблоковані, тоді навіщо дозволяти індексувати деякі URL-и, зображення чи скрипти? Все дуже просто, пошуковий краулер читає будь-який код зверху - вниз. Що означає, що якщо ми блокуємо індексацію, наприклад сторінок фільтрів, ми не хочемо аби картинки чи скрипти в цих категоріях були закриті. Тому таким чином ми вказуємо, що, наприклад ось цей лінк заблокований:
https://domain.com/123?set_filter=123/
Але картинки в ньому, в даному прикладі формату .gif необхідно просканувати.
Sitemap: https://domain.com/sitemap.xml - цей запис необхідно вставляти в самому кінці, аби позначати карту сайту.

Як відрізняється robots.txt в різних CMS?

Якщо ви використовуєте популярні cms для сайту, то можна скористатись заготовками для robots.txt.

Приклад для Wordpress:

User-agent: *

Disallow: /author/

Disallow: /wp-

Disallow: /readme

Disallow: /search

Disallow: *?s=

Disallow: *&s=

Disallow: */reviews/

Disallow: */attachment/

Disallow: */embed

Disallow: */page/

Disallow: *ycl=

Disallow: *gcl=

Disallow: *cpa=

Disallow: *utm=

Disallow: *clid=

Disallow: *openstat=
Allow: /wp-*/*.css

Allow: /wp-*/*.js

Allow: /wp-*/*.jpg

Allow: /wp-*/*.png

Allow: /wp-*/*.gif

Allow: /wp-*/*.woff

Sitemap: https://domen.com/sitemap.xml

Приклад для Opencart:

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter=

Disallow: /*&filter=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Sitemap: https://domen.com/sitemap.xml

Але з кожною новою версією тієї чи іншої CMS, можуть відрізнятись деякі директорії, тому я раджу все одно перевіряти вручну які сторінки є технічними та чи не закрили ми ненароком корисну сторінку для користувача. Що ж до самописних сайтів, то необхідно дослідити всі сторінки, а також скрипти які необхідно аби виконувались та дуже уважно заповнити роботс.

Також якщо ви не впевнені в коректності заповнення файлу robots, можна скористатись тулом від Google:
https://www.google.com/webmasters/tools/robots-testing-tool

Як перевірити коректність robots.txt

Висновки

Robots.txt - надзвичайно важливий інструмент для коректної індексації сайту.

Якщо не створити robots.txt, пошукові системи індексуватимуть всі доступні сторінки вашого сайту. Це може призвести до небажаних наслідків, таких як індексація конфіденційної інформації, дублювання сторінок, засмічення видачі пошукових систем тощо. Тому як тільки планується запускати свій сайт, необхідно зробити аналіз того, що саме треба показувати пошуковим системам, а що ні.

Автор статті