Słownik SEO

Robots.txt

Robots.txt - jest jednym z mechanizmów Robots Exclusion Protocol (protokołu informowania robotów, czego mają nie robić na stronie internetowej). Ma on postać pliku tekstowego, który umieszczany jest w katalogu głównym hostowanej witryny. Ma on na celu ustalenie, które strony danego serwisu mogą być indeksowane przez roboty, a które mają być wyłączone z tego procesu. Takim sposobem kieruje on zachowaniem robotów wyszukiwarki podczas ich wizyty na danej witrynie, lecz nie zmusza do takiego zachowania.

Najczęściej wykluczane z indeksowania są strony zawierające na przykład; informacje techniczne, dane zarejestrowanych użytkowników bądź podkatalogi. Webmaster decyduje o zablokowaniu strony poprzez odpowiedni wpis w robots.txt.

Ważnym aspektem, na który także warto zwrócić uwagę jest to, że każdy robot na indeksację witryny poświęca określoną ilość czasu. Jeśli zatem zawiera ona dużo materiału, może się okazać, że czas ten jest niewystarczający i ostatecznie będzie zaindeksowana tylko część opublikowanej zawartości. W związku z tym, warto jest ukryć te strony serwisu, których indeksować nie trzeba.

UWAGA! Nie należy mylić funkcji pliku "robots.txt" z metodami zabezpieczenia dostępu do zasobów. Istnieją skrypty, które przeszukują zasoby internetowe i gromadzą adresy e-mail bądź inne dane kontaktowe, takie skrypty mogą ignorować zawartość tego pilku, podobnie jak czynią to roboty, które skanują strony Internetowe w poszukiwaniu dziur w zabezpieczeniach. Roboty większości uznanych wyszukiwarek podążają za poleceniami zawartymi w pliku Robot.txt, lecz mogą je różnie interpretować. Tutaj należy zwrócić uwagę na to, że pomimo zablokowania danej strony od indeksacji może ona pojawić się w wynikach wyszukiwania. Taka sytuacja ma miejsce np: gdy robot znalazł daną stronę na innym zasobie internetowym.

Blokowanie strony w robots.txt także zatrzymuje przepływ link juice z tej strony, co może negatywnie wpłynąć na pozycjonowanie serwisu, gdyż nie będzie on przepływał na inne podstrony serwisu i linkowanie wewnętrzne, które jest tak istotne nie spełni swojej roli.

Alternatywą dla robots.txt jest zamieszczanie odpowiednich poleceń w meta-tagu robots w pliku html strony, gdzie można zablokować wybraną stronę dla indeksacji noindex, i jednocześnie pozwolić na przekazanie części wartości - follow. Takie polecenie wyglądało by następująco:

<meta content="noindex, follow" name="robots" />

Zobacz także:

pokaż wszystkie