Co to jest robots.txt i jak go poprawnie skonfigurować?

#Seo

24.10.2023

342

Co to jest robots.txt i jak go poprawnie skonfigurować?

Robots.txt jest ważnym narzędziem do zarządzania indeksowaniem strony internetowej. Pozwala on dokładnie określić wyszukiwarkom, które części witryny mogą być indeksowane, a które nie. Musisz poprawnie skonfigurować ten plik, aby zapewnić optymalną widoczność i bezpieczeństwo poufnych informacji.

Dlaczego potrzebny jest plik robots.txt?

Robots.txt jest ważny z kilku powodów:

Kontrola indeksowania: Właściciele stron mogą użyć robots.txt, aby określić, które części ich strony powinny być indeksowane, a które nie. Na przykład, możesz chcieć wykluczyć strony administracyjne lub poufne treści z indeksowania. Takie strony nie dostarczają użytkownikom przydatnych informacji, więc mogą "zaśmiecić" wyniki wyszukiwarek, co generalnie jest złym znakiem dla wyszukiwarek.

Zabezpieczenie poufności: Jeśli Twoja strona zawiera poufne informacje, których nie chcesz pokazywać wyszukiwarkom, robots.txt pozwala Ci to zrobić. Na przykład strona może zawierać różne dokumenty, dane osobowe użytkowników itp. A jeśli zostaną one dodane do indeksu, każdy będzie mógł je znaleźć i otworzyć.

Oszczędność przepustowości: Roboty indeksujące wyszukiwarek zużywają przepustowość podczas indeksowania strony internetowej. Tak więc, na przykład, jeśli strona ma 50 tysięcy stron i 10 tysięcy stron jest wymaganych do indeksowania, indeksowanie strony zajmie znacznie więcej czasu. Dlatego też, korzystając z robots.txt, można określić, które strony nie powinny być indeksowane, co nie tylko zaoszczędzi zasoby i przyspieszy indeksowanie witryny, ale także zablokuje nieprawidłowe strony przed włączeniem ich do indeksu.

Podsumowując, robots.txt jest potrzebny, aby powiedzieć wyszukiwarkom, co należy indeksować, a czego nie. Na przykład strony produktów, usług i kategorii powinny być wyświetlane Google, ale strony logowania, strony szablonów technicznych i osobiste informacje o użytkowniku powinny być ukryte.

Co oznaczają zapisy w robots.txt?

Aby dowiedzieć się, co dokładnie oznacza ten lub inny zapis, weźmy jako przykład wypełniony plik robots.txt:

Przykładowy plik robots.txt

Ogółem istnieją 4 rekordy, które należy znać:

User-agent: * * - ten zapis pokazuje, z których wyszukiwarek korzystamy. Znak * oznacza, że uzyskujemy dostęp do wszystkich wyszukiwarek.
Disallow: /*?set_filter=* - ten zapis wskazuje katalogi, które należy zamknąć przed indeksowaniem. W tym przypadku należy zamknąć wszystkie linki, które zawierają /*?set_filter=* - gwiazdki oznaczają każdą treść, która się tam znajduje, na przykład: https://domain.com/123?set_filter=123/
https://domain.com/category:farby?set_filter=colir:zelenyy/
Takie strony zostaną zamknięte.
Allow: /local/*.gif - ten zapis oznacza otwarte kategorie do indeksowania.
In general, search engines will index all pages that are not blocked, so why do you need to allow some URLs, images, or scripts to be indexed? It's very simple, a search engine crawler reads any code from top to bottom. This means that if we block indexing of, for example, filter pages, we don't want images or scripts in these categories to be blocked. Therefore, in this way we indicate that, for example, this link is blocked:
https://domain.com/123?set_filter=123/
Ale zawarte w nim obrazy, w tym przykładzie w formacie .gif, muszą być indeksowane.
Sitemap: https://domain.com/sitemap.xml - ten zapis powinien być wstawiony na samym końcu, aby wskazać mapę strony.

Czym różni się robots.txt w różnych CMS?

Jeśli korzystasz z popularnych systemów CMS dla swojej strony internetowej, możesz użyć szablonów robots.txt.

Przykład dla Wordpress:

User-agent: *

Disallow: /author/

Disallow: /wp-

Disallow: /readme

Disallow: /search

Disallow: *?s=

Disallow: *&s=

Disallow: */reviews/

Disallow: */attachment/

Disallow: */embed

Disallow: */page/

Disallow: *ycl=

Disallow: *gcl=

Disallow: *cpa=

Disallow: *utm=

Disallow: *clid=

Disallow: *openstat=
Allow: /wp-*/*.css

Allow: /wp-*/*.js

Allow: /wp-*/*.jpg

Allow: /wp-*/*.png

Allow: /wp-*/*.gif

Allow: /wp-*/*.woff

Sitemap: https://domen.com/sitemap.xml

Przylkad dla Opencart:

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter=

Disallow: /*&filter=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Sitemap: https://domen.com/sitemap.xml

Jednak z każdą nową wersją danego CMS niektóre katalogi mogą się różnić, więc radzę manualnie sprawdzać, które strony są techniczne i czy przypadkiem nie zamknęliśmy jakiejś przydatnej dla użytkownika strony. Jeśli chodzi o samodzielnie hostowane strony, należy sprawdzić wszystkie strony i skrypty, które muszą zostać wykonane i bardzo dokładnie wypełnić roboty.

Ponadto, jeśli nie masz pewności, czy plik robots jest poprawnie wypełniony, możesz skorzystać z narzędzia Google:
https://www.google.com/webmasters/tools/robots-testing-toolM

Jak sprawdzić poprawność pliku robots.txt

Podsumowanie.

Robots.txt jest bardzo ważnym narzędziem do poprawnego indeksowania strony internetowej.

Jeśli nie utworzysz pliku robots.txt, wyszukiwarki będą indeksować wszystkie dostępne strony Twojej strony internetowej. Może to prowadzić do niepożądanych konsekwencji, takich jak indeksowanie poufnych informacji, duplikowanie stron, zatykanie wyników wyszukiwania itp. Dlatego też, gdy tylko planujesz uruchomić swoją stronę internetową, musisz przeanalizować, co dokładnie chcesz pokazać wyszukiwarkom, a czego nie powinieneś.

Autor artykułu