Jak edytować plik txt pliku robots. Jak edytować plik robots txt Jak wygląda plik robots txt

Witajcie drodzy czytelnicy bloga „Świat Webmasterów”!

Plik plik robots.txt- to jest bardzo ważny plik, co bezpośrednio wpływa na jakość indeksowania Twojej witryny, a tym samym na jej promocję w wyszukiwarkach.

Dlatego musisz umieć poprawnie sformatować plik robots.txt, aby przypadkowo nie zablokować w indeksie ważnych dokumentów projektu internetowego.

Jak sformatować plik robots.txt, jaką składnię zastosować, jak dopuszczać i blokować dokumenty do indeksu, omówimy w tym artykule.

Informacje o pliku robots.txt

Najpierw dowiedzmy się bardziej szczegółowo, jaki to rodzaj pliku.

Plik robotów to plik pokazujący wyszukiwarkom, które strony i dokumenty w witrynie można dodać do indeksu, a które nie. Jest to konieczne, ponieważ wyszukiwarki początkowo próbują zaindeksować całą witrynę, co nie zawsze się udaje. Przykładowo, jeśli tworzysz stronę na silniku (WordPress, Joomla itp.), to będziesz miał foldery organizujące pracę panelu administracyjnego. Oczywiste jest, że informacji znajdujących się w tych folderach nie można zindeksować; w tym przypadku wykorzystywany jest plik robots.txt, który ogranicza dostęp do wyszukiwarek.

W pliku robots.txt znajduje się także adres mapy serwisu (poprawia to indeksowanie przez wyszukiwarki), a także domena główna serwisu (główne lustro).

Lustro– jest to absolutna kopia serwisu, tj. gdy jest jedna witryna, to mówią, że jedna z nich jest domeną główną, a druga jej lustrem.

Zatem plik ma całkiem sporo funkcji, i to ważnych!

Składnia pliku robots.txt

Plik robots zawiera bloki reguł, które mówią konkretnej wyszukiwarce, co może być indeksowane, a co nie. Może istnieć jeden blok reguł (dla wszystkich wyszukiwarek), ale może być ich także kilka - osobno dla niektórych konkretnych wyszukiwarek.

Każdy taki blok zaczyna się od operatora „User-Agent”, który wskazuje, której wyszukiwarki dotyczą te reguły.

Użytkownik-Agent:A
(zasady dla robota „A”)

Użytkownik-Agent:B
(zasady dla robota „B”)

Powyższy przykład pokazuje, że operator „User-Agent” posiada parametr – nazwę robota wyszukiwarki, do którego stosowane są reguły. Poniżej wskażę najważniejsze:

Po „User-Agent” znajdują się inni operatorzy. Oto ich opis:

Wszystkie operatory mają tę samą składnię. Te. operatorów należy używać w następujący sposób:

Operator1: parametr1

Operator2: parametr2

…

Zatem najpierw piszemy nazwę operatora (obojętnie czy dużymi, czy małymi literami), następnie stawiamy dwukropek i oddzieleni spacją wskazujemy parametr tego operatora. Następnie zaczynając od nowej linii, w ten sam sposób opisujemy operator numer dwa.

Ważny!!! Pusta linia będzie oznaczać, że blok reguł dla tej wyszukiwarki jest kompletny, dlatego nie oddzielaj instrukcji pustą linią.

Przykładowy plik robots.txt

Spójrzmy na prosty przykład pliku robots.txt, aby lepiej zrozumieć cechy jego składni:

Agent użytkownika: Yandex
Zezwalaj: /folder1/
Nie zezwalaj: /file1.html
Gospodarz: www.site.ru

Agent użytkownika: *
Nie zezwalaj: /document.php
Nie zezwalaj: /folderxxx/
Nie zezwalaj: /folderyyy/folderzzz
Nie zezwalaj: /feed/

Mapa witryny: http://www.site.ru/sitemap.xml

Spójrzmy teraz na opisany przykład.

Plik składa się z trzech bloków: pierwszego dla Yandex, drugiego dla wszystkich wyszukiwarek, a trzeci zawiera adres mapy witryny (stosowany automatycznie dla wszystkich wyszukiwarek, więc nie ma potrzeby określania „User-Agent”). Pozwoliliśmy Yandexowi na indeksowanie folderu „folder1” i całej jego zawartości, ale zabroniliśmy mu indeksowania dokumentu „file1.html” znajdującego się w katalogu głównym hostingu. Yandexowi wskazaliśmy także główną domenę witryny. Drugi blok dotyczy wszystkich wyszukiwarek. Tam zablokowaliśmy dokument „document.php”, a także foldery „folderxxx”, „folderyyy/folderzzz” i „feed”.

Należy pamiętać, że w drugim bloku poleceń do indeksu nie zabroniliśmy całego folderu „folderyyy”, a jedynie folder znajdujący się w tym folderze – „folderzzz”. Te. podaliśmy pełną ścieżkę do „folderzzz”. Należy to zawsze robić, jeśli zabronimy dokumentu znajdującego się nie w katalogu głównym witryny, ale gdzieś w innych folderach.

Utworzenie zajmie mniej niż dwie minuty:

Utworzony plik robots można sprawdzić pod kątem funkcjonalności w panelu webmastera Yandex. Jeśli nagle w pliku zostaną znalezione błędy, Yandex je pokaże.

Pamiętaj, aby utworzyć plik robots.txt dla swojej witryny, jeśli jeszcze go nie masz. Pomoże to Twojej witrynie rozwijać się w wyszukiwarkach. Możesz także przeczytać nasz drugi artykuł na temat metody metatagów i .htaccess.

Konsekwentnie wypełniaj wszystkie wymagane pola. Gdy będziesz kierować, zobaczysz plik Robots.txt wypełniony dyrektywami. Wszystkie dyrektywy w pliku Robots.txt zostały szczegółowo opisane poniżej.

Flaga, Kopiuj i wklej tekst do edytora tekstu. Zapisz plik jako „robots.txt” w katalogu głównym swojej witryny.

Opis formatu pliku robots.txt

Plik robots.txt składa się z wpisów, z których każde składa się z dwóch pól: linii z nazwą aplikacji klienckiej (user-agent) oraz jednej lub kilku linii rozpoczynających się od dyrektywy Disallow:

Dyrektywa „:” oznacza

Plik robots.txt musi być utworzony w formacie tekstowym Unix. Większość dobrych edytorów tekstu wie już, jak konwertować znaki tłumaczeniowe Ciągi Windows na Unixie. Lub twój klient FTP powinien być w stanie to zrobić. Do edycji nie próbuj używać edytora HTML, zwłaszcza takiego, który nie ma trybu tekstowego do wyświetlania kodu.

Dyrektywa Agent użytkownika:

Dla Ramblera: Agent użytkownika: StackRambler Dla Yandex: Agent użytkownika: Yandex Dla Google: Agent użytkownika: googlebot

Możesz utworzyć instrukcje dla wszystkich robotów:

Agent użytkownika: *

Dyrektywa Uniemożliwić:

Druga część wpisu składa się z linii Disallow. Te linie to dyrektywy (instrukcje, polecenia) dla tego robota. Każda grupa wprowadzona w wierszu User-agent musi mieć co najmniej jedną instrukcję Disallow. Liczba instrukcji Disallow jest nieograniczona. Informują one robota, których plików i/lub katalogów robot nie może indeksować. Można uniemożliwić indeksowanie pliku lub katalogu.

Następująca dyrektywa wyłącza indeksowanie katalogu /cgi-bin/:

Disallow: /cgi-bin/ Zwróć uwagę na / na końcu nazwy katalogu! Aby zabronić odwiedzania katalogu „/dir”, instrukcja powinna wyglądać następująco: „Disallow: /dir/” . A linia „Disallow: /dir” zabrania odwiedzania wszystkich stron serwerów, których pełna nazwa (od katalogu głównego serwera) zaczyna się od „/dir”. Na przykład: „/dir.html”, „/dir/index.html”, „/katalog.html”.

Dyrektywa napisana w następujący sposób zabrania indeksowania pliku indeks.htm znajdującego się w katalogu głównym:

Nie zezwalaj: /index.htm

Dyrektywa Umożliwić Tylko Yandex to rozumie.

User-agent: Yandex Zezwól: /cgi-bin Disallow: / # zabrania pobierania wszystkiego z wyjątkiem stron zaczynających się od „/cgi-bin” W przypadku innych wyszukiwarek będziesz musiał wyświetlić listę wszystkich zamkniętych dokumentów. Zastanów się nad strukturą serwisu, aby w miarę możliwości dokumenty zamknięte do indeksowania zostały zebrane w jednym miejscu.

Jeśli dyrektywa Disallow jest pusta, oznacza to, że robot może indeksować WSZYSTKIE pliki. Aby plik robots.txt został uznany za prawidłowy, w każdym polu User-agent musi znajdować się co najmniej jedna dyrektywa Disallow. Całkowicie pusty plik robots.txt oznacza to samo, jakby w ogóle nie istniał.

Robot Rambler rozumie * jak dowolny symbol, zatem instrukcja Disallow: * oznacza zakaz indeksowania całej witryny.

Zezwalaj, Nie zezwalaj na dyrektywy bez parametrów. Brak parametrów dla dyrektyw Zezwalaj i Nie zezwalaj jest interpretowany w następujący sposób: User-agent: Yandex Disallow: # tak samo jak Zezwalaj: / User-agent: Yandex Zezwalaj: # tak samo jak Disallow: /

Używanie znaków specjalnych „*” i „$”.
Określając ścieżki dyrektyw Zezwól-Zabroń, możesz użyć znaków specjalnych „*” i „$”, określając w ten sposób określone wyrażenia regularne. Znak specjalny „*” oznacza dowolny (w tym pusty) ciąg znaków. Przykłady:

Agent użytkownika: Yandex Disallow: /cgi-bin/*.aspx # zabrania „/cgi-bin/example.aspx” i „/cgi-bin/private/test.aspx” Disallow: /*private # zabrania nie tylko „ /private”, ale także „/cgi-bin/private” Znak specjalny „$”.
Domyślnie na końcu każdej reguły opisanej w pliku robots.txt dodawany jest znak „*”, na przykład: User-agent: Yandex Disallow: /cgi-bin* # blokuje dostęp do stron rozpoczynających się od „/cgi-bin” Disallow : /cgi- bin # to samo, aby anulować „*” na końcu reguły, możesz użyć znaku specjalnego „$”, na przykład: User-agent: Yandex Disallow: /example$ # zabrania „/ przykład”, ale nie zabrania „/example.html” User -agent: Yandex Disallow: /example # nie zezwala zarówno na „/example”, jak i „/example.html” User-agent: Yandex Disallow: /example$ # nie zezwala tylko na „ /example" Disallow: /example*$ # to samo co "Disallow: /example" nie pozwala na użycie zarówno /example.html, jak i /example

Dyrektywa Gospodarz.

Jeśli Twoja witryna zawiera serwery lustrzane, specjalny robot lustrzany zidentyfikuje je i utworzy grupę serwerów lustrzanych dla Twojej witryny. W przeszukiwaniu będzie brać udział tylko główne zwierciadło. Można to określić za pomocą pliku robots.txt przy użyciu dyrektywy „Host”, podając nazwę głównego zwierciadła jako jego parametr. Dyrektywa „Host” nie gwarantuje wyboru określonego zwierciadła głównego, jednak algorytm bierze to pod uwagę przy podejmowaniu decyzji wysoki priorytet. Przykład: #Jeśli www.glavnoye-zerkalo.ru jest głównym serwerem lustrzanym witryny, plik robots.txt dla #www.neglavnoye-zerkalo.ru wygląda następująco User-Agent: * Disallow: /forum Disallow: /cgi-bin Host: www.glavnoye -zerkalo.ru Aby zapewnić kompatybilność z robotami, które nie w pełni przestrzegają standardu podczas przetwarzania pliku robots.txt, należy dodać dyrektywę „Host” do grupy, zaczynając od wpisu „User-Agent”, bezpośrednio po Dyrektywy „Nie zezwalaj” („Zezwalaj”). Argumentem dyrektywy „Host” jest nazwa domeny, po której następuje numer portu (domyślnie 80) oddzielony dwukropkiem. Parametr dyrektywy Host musi składać się z jednej prawidłowej nazwy hosta (tzn. takiej, która jest zgodna z RFC 952 i nie jest adresem IP) oraz prawidłowego numeru portu. Nieprawidłowo utworzone linie „Host:” są ignorowane.

Przykłady zignorowanych dyrektyw Hosta:

Host: www.myhost-.ru Host: www.-myhost.ru Host: www.myhost.ru:100000 Host: www.my_host.ru Host: .my-host.ru:8000 Host: my-host.ru. Host: my..host.ru Host: www.myhost.ru/ Host: www.myhost.ru:8080/ Host: 213.180.194.129 Host: www.firsthost.ru,www. Secondhost.ru # w jednej linii - jednej domena! Host: www.firsthost.ru www. Secondhost.ru # w jednej linii - jedna domena!! Gospodarz: załoga-komunikacja.rf # Należy użyć punycode

Dyrektywa Opóźnienie indeksowania

Ustawia limit czasu w sekundach, z jakim robot wyszukiwania pobiera strony z Twojego serwera (opóźnienie indeksowania).

Jeśli serwer jest mocno obciążony i nie ma czasu na przetwarzanie żądań pobierania, użyj dyrektywy „Opóźnienie indeksowania”. Pozwala ustawić robotowi wyszukiwania minimalny okres czasu (w sekundach) pomiędzy zakończeniem pobierania jednej strony a rozpoczęciem pobierania następnej. Aby zapewnić kompatybilność z robotami, które nie w pełni przestrzegają standardu podczas przetwarzania pliku robots.txt, należy dodać dyrektywę „Opóźnienie indeksowania” do grupy, zaczynając od wpisu „User-Agent”, bezpośrednio po „Disallow” („Allow” ) dyrektywy.

Robot wyszukiwania Yandex obsługuje ułamkowe wartości opóźnienia indeksowania, na przykład 0,5. Nie gwarantuje to, że robot wyszukiwania będzie odwiedzał Twoją witrynę co pół sekundy, ale daje robotowi większą swobodę i pozwala na szybsze indeksowanie witryny.

Agent użytkownika: Yandex Opóźnienie indeksowania: 2 # ustawia limit czasu na 2 sekundy Agent użytkownika: * Disallow: /search Opóźnienie indeksowania: 4,5 # ustawia limit czasu na 4,5 sekundy

Dyrektywa Czystość-parametr

Dyrektywa wykluczająca parametry z paska adresu. te. żądania zawierające taki parametr i te, które go nie zawierają, będą uznawane za identyczne.

Puste linie i komentarze

Puste linie są dozwolone pomiędzy grupami instrukcji wprowadzanych przez User-agenta.

Instrukcja Disallow jest brana pod uwagę tylko wtedy, gdy jest podporządkowana dowolnej linii User-agent - to znaczy, jeśli znajduje się nad nią linia User-agent.

Każdy tekst od znaku krzyżyka „#” do końca linii jest uważany za komentarz i jest ignorowany.

Przykład:

Następny prosty plik plik robots.txt zabrania wszystkim robotom indeksowania wszystkich stron witryny, z wyjątkiem robota Rambler, który przeciwnie, może indeksować wszystkie strony witryny.

# Instrukcje dla wszystkich robotów User-agent: * Disallow: / # Instrukcje dla robota Rambler User-agent: StackRambler Disallow:

Typowe błędy:

Odwrócona składnia: User-agent: / Disallow: StackRambler A powinno być tak: User-agent: StackRambler Disallow: / Kilka dyrektyw Disallow w jednym wierszu: Disallow: /css/ /cgi-bin/ /images/ Poprawnie tak: Zabroń: /css/ Zabroń: /cgi-bin/ Zabroń: /obrazy/

Uwagi:

Niedopuszczalne jest umieszczanie pustych przerw między dyrektywami „User-agent” i „Disallow” („Zezwól”), a także pomiędzy samymi dyrektywami „Disallow” („Zezwalaj”).
Zgodnie ze standardem zaleca się wstawienie pustego znaku nowej linii przed każdą dyrektywą „User-agent”.

Nie wszyscy współcześni webmasterzy wiedzą, jak pracować z kodem HTML. Wiele osób nawet nie wie, jak powinny wyglądać funkcje zapisane w kluczowych plikach CMS. Elementy wewnętrzne Twojego zasobu, takie jak plik robots.txt, stanowią własność intelektualną, którą właściciel musi zabrać do wody. Dopracowanie witryny pozwala zwiększyć jej rankingi wyszukiwania, wynieść ją na sam szczyt i skutecznie pozyskiwać ruch.

Plik robots.txt jest jednym z głównych elementów dostosowania zasobu do wymagań wyszukiwarek. Zawiera informacje techniczne i ogranicza dostęp robotów wyszukujących do niektórych stron. W końcu nie każda zapisana strona musi koniecznie pojawić się w wynikach wyszukiwania. Wcześniej do utworzenia pliku txt pliku robots wymagany był dostęp do protokołu FTP. Rozwój CMS otworzył możliwość dostępu do niego bezpośrednio poprzez panel administracyjny.

Do czego służy plik robots.txt?

Plik ten zawiera szereg rekomendacji skierowanych do botów wyszukujących. Ogranicza im dostęp do niektórych części witryny. Ze względu na umieszczenie tego pliku w katalogu głównym, boty nie mogą go przeoczyć. W rezultacie, gdy dotrą do Twojego zasobu, najpierw zapoznają się z zasadami jego przetwarzania, a dopiero potem rozpoczynają sprawdzanie.

W ten sposób plik wskazuje robotom przeszukującym, które katalogi witryny mogą być indeksowane, a które nie podlegają temu procesowi.

Biorąc pod uwagę, że obecność pliku nie wpływa bezpośrednio na proces rankingu, wiele witryn nie zawiera pliku robots.txt. Jednak pełnej ścieżki dostępu nie można uznać za poprawną technicznie. Przyjrzyjmy się zaletom, jakie plik robots.txt daje zasobowi.

Możesz zabronić indeksowania zasobu w całości lub w części oraz ograniczyć zakres robotów wyszukujących, które będą miały prawo przeprowadzać indeksowanie. Każąc plikowi robots.txt zaprzeczać wszystkiemu, możesz całkowicie odizolować zasób podczas napraw lub renowacji.

Nawiasem mówiąc, programiści Google wielokrotnie przypominali webmasterom, że rozmiar pliku robots.txt nie powinien przekraczać 500 KB. Z pewnością będzie to prowadzić do błędów podczas indeksowania. Jeśli tworzysz plik ręcznie, to „osiągnięcie” takiego rozmiaru jest oczywiście nierealne. Jednak niektóre CMS-y, które automatycznie generują treść pliku robots.txt, mogą ją znacznie przeciążyć.

Z łatwością utwórz plik dla dowolnej wyszukiwarki

Jeśli boisz się ćwiczyć strojenie niezależnie, można to zrobić automatycznie. Istnieją konstruktory, które montują takie pliki bez Twojego udziału. Są odpowiednie dla osób, które dopiero rozpoczynają swój rozwój jako webmasterzy.

Jak widać na obrazku, konfigurowanie konstruktora rozpoczyna się od wpisania adresu strony. Następnie wybierasz wyszukiwarki, z którymi planujesz współpracować. Jeśli wyniki konkretnej wyszukiwarki nie są dla Ciebie istotne, nie ma potrzeby tworzenia dla niej ustawień. Teraz przejdź do określania folderów i plików, do których planujesz ograniczyć dostęp. W tym przykładzie możesz określić adres mapy i lustro swojego zasobu.

Generator pliku robots.txt wypełni formularz po wypełnieniu konstruktora. Jedyne, czego będziesz potrzebować w przyszłości, to skopiowanie powstałego tekstu do pliku txt. Nie zapomnij nazwać go robotami.

Jak sprawdzić skuteczność pliku robots.txt

Aby przeanalizować działanie pliku w Yandex, należy przejść do odpowiedniej strony w sekcji Yandex.Webmaster. W oknie dialogowym podaj nazwę witryny i kliknij przycisk „pobierz”.

System przeanalizuje plik robots.txt i sprawdzi, czy robot wyszukiwania będzie indeksował strony objęte zakazem indeksowania. Jeżeli pojawią się problemy, dyrektywy można edytować i sprawdzać bezpośrednio w oknie dialogowym. Jednak po tym będziesz musiał skopiować edytowany tekst i wkleić go do pliku robots.txt w katalogu głównym.

Podobną usługę zapewnia usługa Narzędzia dla webmasterów z poziomu wyszukiwarki Google.

Tworzenie pliku robots.txt dla WordPress, Joomla i Ucoz

Różne systemy CMS, które zyskały dużą popularność w rosyjskim Internecie, oferują użytkownikom własne wersje plików robots.txt. Niektóre z nich w ogóle nie mają takich plików. Często pliki te są albo zbyt uniwersalne i nie uwzględniają cech zasobu użytkownika, albo mają szereg istotnych niedociągnięć.

Doświadczony specjalista może ręcznie poprawić sytuację (jeśli brakuje Ci wiedzy, lepiej tego nie robić). Jeśli boisz się zagłębiać w wewnętrzne strony serwisu, skorzystaj z usług współpracowników. Takie manipulacje, jeśli się na tym znasz, zajmują tylko kilka minut. Na przykład plik robots.txt może wyglądać następująco:

Jak można się domyślić, w dwóch ostatnich wierszach musisz wprowadzić dane własnego zasobu.

Wniosek

Istnieje wiele umiejętności, które każdy webmaster musi opanować. I samokonfiguracja a utrzymanie strony internetowej jest jednym z nich. Początkujący twórcy witryn mogą podczas debugowania zasobu narobić takiego bałaganu, że nie będą w stanie go później uporządkować. Jeśli nie chcesz stracić potencjalnych odbiorców i pozycji w wynikach wyszukiwania ze względu na strukturę witryny, podejdź do procesu jej zakładania w sposób dokładny i odpowiedzialny.

Jednym z etapów optymalizacji witryny pod kątem wyszukiwarek jest skompilowanie pliku robots.txt. Używając tego pliku Możesz uniemożliwić niektórym lub wszystkim robotom wyszukiwania indeksowanie Twojej witryny lub jej części, które nie są przeznaczone do indeksowania. W szczególności można zapobiec indeksowaniu zduplikowanych treści, takich jak wersje stron do druku.

Przed rozpoczęciem indeksowania roboty wyszukujące zawsze odwołują się do pliku robots.txt w katalogu głównym Twojej witryny, na przykład http://site.ru/robots.txt, aby dowiedzieć się, które sekcje witryny są zabronione przez robota z indeksowania. Ale nawet jeśli nie masz zamiaru niczego zabraniać, nadal zaleca się utworzenie tego pliku.

Jak widać z rozszerzenia robots.txt, jest to plik tekstowy. Aby utworzyć lub edytować ten plik, lepiej użyć najprostszego redaktorzy tekstu jak Notatnik. plik robots.txt musi znajdować się w katalogu głównym witryny i ma swój własny format, który omówimy poniżej.

Format pliku robots.txt

Plik robots.txt musi zawierać co najmniej dwa wymagane wpisy. Pierwszą z nich jest dyrektywa User-agent wskazująca, który robot wyszukujący powinien postępować zgodnie z kolejnymi instrukcjami. Wartością może być nazwa robota (googlebot, Yandex, StackRambler) lub symbol *, jeśli uzyskujesz dostęp do wszystkich robotów jednocześnie. Na przykład:

Klient użytkownika: Googlebot

Nazwę robota można znaleźć na stronie internetowej odpowiedniej wyszukiwarki. Następnie powinna pojawić się jedna lub więcej dyrektyw Disallow. Dyrektywy te informują robota, które pliki i foldery nie mogą być indeksowane. Na przykład poniższe linie uniemożliwiają robotom indeksowanie pliku feedback.php i katalogu cgi-bin:

Zabroń: /feedback.php Zabroń: /cgi-bin/

Można także używać tylko początkowych znaków plików lub folderów. Linia Disallow: /forum zabrania indeksowania wszystkich plików i folderów w katalogu głównym witryny, której nazwa zaczyna się od forum, na przykład pliku http://site.ru/forum.php i folderu http://site. ru/forum/ wraz z całą zawartością. Jeśli pole Disallow jest puste, oznacza to, że robot może indeksować wszystkie strony. Jeśli wartością Disallow jest symbol /, oznacza to, że cała witryna nie może być indeksowana.

Dla każdego pola User-agent musi istnieć co najmniej jedno pole Disallow. Oznacza to, że jeśli nie zamierzasz zabronić indeksowania czegokolwiek, plik robots.txt powinien zawierać kolejne wpisy:

Klient użytkownika: * Nie zezwalaj:

Dodatkowe dyrektywy

Oprócz wyrażeń regularnych Yandex i Google pozwalają na użycie dyrektywy Zezwalaj, która jest przeciwieństwem Disallow, to znaczy wskazuje, które strony można zaindeksować. W poniższym przykładzie Yandex nie może indeksować wszystkiego z wyjątkiem adresów stron zaczynających się od /articles:

Klient użytkownika: Yandex Zezwalaj: /articles Disallow: /

W tym przykładzie dyrektywa Zezwalaj musi zostać napisana przed Disallow, w przeciwnym razie Yandex zrozumie to jako całkowity zakaz indeksowania witryny. Pusta dyrektywa Zezwalaj również całkowicie wyłącza indeksowanie witryny:

Agent użytkownika: Yandex Zezwalaj:

równowartość

Agent użytkownika: Yandex Disallow: /

Niestandardowe dyrektywy należy określić tylko dla tych wyszukiwarek, które je obsługują. W przeciwnym razie robot, który nie rozumie tego wpisu, może błędnie przetworzyć go lub cały plik robots.txt. Więcej informacji o dodatkowych dyrektywach i ogólnie o rozumieniu poleceń zawartych w pliku robots.txt przez pojedynczego robota można znaleźć na stronie odpowiedniej wyszukiwarki.

Wyrażenia regularne w pliku robots.txt

Większość wyszukiwarek bierze pod uwagę tylko wyraźnie określone nazwy plików i folderów, ale istnieją również bardziej zaawansowane wyszukiwarki. Google Robot i Yandex Robot obsługują proste wyrażenia regularne w pliku robots.txt, co znacznie odciąża webmasterów. Na przykład poniższe polecenia uniemożliwiają Googlebotowi indeksowanie wszystkich plików z rozszerzeniem .pdf:

Klient użytkownika: googlebot Disallow: *.pdf$

W powyższym przykładzie * to dowolny ciąg znaków, a $ oznacza koniec łącza.

Klient użytkownika: Yandex Zezwalaj: /articles/*.html$ Nie zezwalaj: /

Powyższe dyrektywy pozwalają Yandexowi indeksować tylko pliki z rozszerzeniem „.html” znajdujące się w folderze /articles/. Wszystko inne jest zabronione w przypadku indeksowania.

Mapa witryny

Możesz określić lokalizację mapy witryny XML w pliku robots.txt:

Klient użytkownika: googlebot Disallow: Mapa witryny: http://site.ru/sitemap.xml

Jeśli masz bardzo duża liczba stron w serwisie i trzeba było podzielić mapę witryny na części, to w pliku robots.txt należy wskazać wszystkie części mapy:

Agent użytkownika: Yandex Disallow: Mapa witryny: http://mysite.ru/my_sitemaps1.xml Mapa witryny: http://mysite.ru/my_sitemaps2.xml

Lustra witryny

Jak wiadomo, zazwyczaj dostęp do tej samej witryny można uzyskać pod dwoma adresami: zarówno z www, jak i bez niego. Dla robota wyszukiwania site.ru i www.site.ru to różne witryny, ale zawierające tę samą treść. Nazywa się je lustrami.

Ze względu na fakt, że istnieją linki do stron serwisu zarówno z www, jak i bez niego, wagę stron można podzielić pomiędzy www.site.ru i site.ru. Aby temu zapobiec, wyszukiwarka musi wskazać główne lustro witryny. W wyniku „sklejenia” cały ciężar będzie należeć do jednego głównego lustra, a strona będzie mogła zająć wyższą pozycję w wynikach wyszukiwania.

Możesz określić główne lustro dla Yandex bezpośrednio w pliku robots.txt za pomocą dyrektywy Host:

Agent użytkownika: Yandex Disallow: /feedback.php Disallow: /cgi-bin/ Host: www.site.ru

Po sklejeniu lustro www.site.ru przejmie całą wagę i zajmie wyższą pozycję w wynikach wyszukiwania. A wyszukiwarka w ogóle nie będzie indeksować site.ru.

W przypadku innych wyszukiwarek wyborem głównego serwera lustrzanego jest stałe przekierowanie po stronie serwera (kod 301) z dodatkowych serwerów lustrzanych do głównego. Odbywa się to za pomocą pliku .htaccess i modułu mod_rewrite. Aby to zrobić, umieść plik .htaccess w katalogu głównym witryny i napisz tam:

RewriteEngine On Opcje +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

W rezultacie wszystkie żądania z site.ru będą kierowane do www.site.ru, to znaczy site.ru/page1.php zostaną przekierowane do www.site.ru/page1.php.

Metoda przekierowania będzie działać we wszystkich wyszukiwarkach i przeglądarkach, ale nadal zaleca się dodanie dyrektywy Host do pliku robots.txt dla Yandex.

Komentarze w pliku robots.txt

Możesz także dodać komentarze do pliku robots.txt - zaczynają się one od symbolu # i kończą nową linią. Wskazane jest pisanie komentarzy w osobnej linii lub lepiej ich nie używać w ogóle.

Przykład wykorzystania komentarzy:

User-agent: StackRambler Disallow: /garbage/ # w tym folderze nie ma nic przydatnego Disallow: /doc.xhtml # i na tej stronie też # i wszystkie komentarze w tym pliku również są bezużyteczne

Przykłady plików robots.txt

1. Zezwól wszystkim robotom na indeksowanie wszystkich dokumentów witryny:

Klient użytkownika: * Nie zezwalaj:
Klient użytkownika: * Nie zezwalaj: /

3. Zabraniamy robotowi wyszukiwarki Google indeksowania pliku feedback.php oraz zawartości katalogu cgi-bin:

Klient użytkownika: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. Zezwalamy wszystkim robotom na indeksowanie całej witryny i zabraniamy robotowi wyszukiwarki Yandex indeksowanie pliku feedback.php oraz zawartości katalogu cgi-bin:

Agent użytkownika: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php Host: www.site.ru User-agent: * Disallow:

5. Pozwalamy wszystkim robotom indeksować całą witrynę, a robotowi Yandex pozwalamy na indeksowanie tylko tej części witryny, która jest dla niego przeznaczona:

Agent użytkownika: Yandex Zezwól: /yandex Disallow: / Host: www.site.ru User-agent: * Disallow:

Puste linie oddzielają ograniczenia dla różnych robotów. Każdy blok ograniczeń musi zaczynać się od linii z polem User-Agent, wskazującym robota, którego dotyczą te zasady indeksowania witryny.

Powszechne błędy

Należy pamiętać, że pusta linia w pliku robots.txt stanowi separator pomiędzy dwoma wpisami dotyczącymi różnych robotów. Nie można także określić wielu dyrektyw w jednym wierszu. Uniemożliwiając indeksowanie pliku, webmasterzy często pomijają znak / przed nazwą pliku.

Nie ma potrzeby określania w pliku robots.txt zakazu indeksowania witryny przez różne programy przeznaczone do całkowitego pobrania witryny, na przykład TeleportPro. Ani programy do pobierania, ani przeglądarki nigdy nie przeglądają tego pliku i nie wykonują zawartych w nim instrukcji. Jest przeznaczony wyłącznie dla wyszukiwarek. Nie należy także blokować panelu administracyjnego swojej witryny w pliku robots.txt, ponieważ jeśli nigdzie nie będzie linku do niej, to nie zostanie ona zaindeksowana. Położenie obszaru administracyjnego ujawnisz tylko osobom, które nie powinny o tym wiedzieć. Warto też pamiętać, że zbyt duży plik robots.txt może zostać zignorowany przez wyszukiwarkę. Jeśli masz zbyt wiele stron, które nie są przeznaczone do indeksowania, lepiej po prostu usunąć je z serwisu lub przenieść do osobnego katalogu i uniemożliwić indeksowanie tego katalogu.

Sprawdzanie pliku robots.txt pod kątem błędów

Koniecznie sprawdź, jak wyszukiwarki rozumieją Twój plik robots. Dla Google sprawdza możesz skorzystać z Narzędzi Google dla webmasterów. Jeśli chcesz dowiedzieć się, jak Twój plik robots.txt jest interpretowany przez Yandex, możesz skorzystać z usługi Yandex.Webmaster. Dzięki temu będziesz mógł w odpowiednim czasie skorygować wszelkie błędy. Również na stronach tych serwisów można znaleźć zalecenia dotyczące tworzenia pliku robots.txt i wiele innych przydatnych informacji.

Kopiowanie artykułu jest zabronione.

Szybka nawigacja na tej stronie:

Współczesna rzeczywistość jest taka, że w Runecie żadna szanująca się witryna nie obejdzie się bez pliku o nazwie robots.txt - nawet jeśli nie masz nic do zabraniania indeksowania (chociaż prawie każda witryna ma strony techniczne i zduplikowane treści, które wymagają zamknięcia przed indeksowaniem) , to zdecydowanie warto zarejestrować dyrektywę z www i bez www dla Yandex - po to są zasady pisania pliku robots.txt, które zostaną omówione poniżej.

Co to jest plik robots.txt?

Plik o tej nazwie sięga 1994 roku, kiedy konsorcjum W3C zdecydowało się wprowadzić taki standard, aby strony mogły udostępniać wyszukiwarkom instrukcje indeksowania.

Plik o tej nazwie musi być zapisany w katalogu głównym serwisu, umieszczanie go w innych folderach jest niedozwolone.

Plik spełnia następujące funkcje:

zabrania indeksowania jakichkolwiek stron lub grup stron
umożliwia indeksowanie dowolnych stron lub grup stron
wskazuje robotowi Yandex, które lustro witryny jest główne (z www lub bez www)
pokazuje lokalizację pliku mapy witryny

Wszystkie cztery punkty są dla nas niezwykle ważne optymalizacja wyszukiwarki strona. Blokowanie indeksowania umożliwia zablokowanie indeksowania stron zawierających zduplikowaną treść — na przykład strony z tagami, archiwa, wyniki wyszukiwania, strony z wersjami do druku itd. Obecność duplikacji treści (gdy ten sam tekst, nawet wielkości kilku zdań, występuje na dwóch lub więcej stronach) jest minusem dla witryny w rankingach wyszukiwarek, dlatego duplikatów powinno być jak najmniej.

Dyrektywa zezwolenia nie ma samodzielnego znaczenia, ponieważ domyślnie wszystkie strony są już dostępne do indeksowania. Działa w połączeniu z funkcją disallow - gdy na przykład pewna kategoria jest całkowicie wyłączona z wyszukiwarek, ale chcesz otworzyć tę lub osobną stronę w niej.

Wskazanie głównego lustra witryny jest również jednym z najważniejszych elementów optymalizacji: wyszukiwarki postrzegają witryny www.yoursite.ru i yoursite.ru jako dwa różne zasoby, chyba że bezpośrednio powiesz im inaczej. W rezultacie treść podwaja się – pojawianie się duplikatów, spada siła linków zewnętrznych ( Linki zewnętrzne można umieścić z www lub bez www), co może skutkować niższą pozycją w wynikach wyszukiwania.

W przypadku Google główne lustro jest zarejestrowane w narzędziach dla webmasterów (http://www.google.ru/webmasters/), ale w przypadku Yandex te instrukcje można zarejestrować tylko w tym samym pliku robots.tkht.

Wskazanie pliku xml z mapą witryny (na przykład sitemap.xml) umożliwia wyszukiwarkom wykrycie tego pliku.

Zasady określania agenta użytkownika

Agent użytkownika w tym przypadku to system wyszukiwania. Pisząc instrukcje, musisz wskazać, czy będą one dotyczyć wszystkich wyszukiwarek (w takim przypadku wskazana jest gwiazdka - *), czy też są przeznaczone dla konkretnej wyszukiwarki - na przykład Yandex lub Google.

Aby ustawić User-agenta wskazującego wszystkie roboty, wpisz w swoim pliku następującą linię:

Agent użytkownika: *

Dla Yandexa:

Agent użytkownika: Yandex

Dla Google'a:

Klient użytkownika: GoogleBot

Reguły określające zakaz i zezwolenie

Po pierwsze należy zauważyć, że plik robots.txt musi zawierać co najmniej jedną dyrektywę disallow, aby był ważny. Przyjrzyjmy się teraz stosowaniu tych dyrektyw na konkretnych przykładach.

Używając tego kodu, zezwalasz na indeksowanie wszystkich stron witryny:

Klient użytkownika: * Nie zezwalaj:

Przeciwnie, za pomocą tego kodu wszystkie strony zostaną zamknięte:

Klient użytkownika: * Nie zezwalaj: /

Aby zabronić indeksowania określonego katalogu zwanego folderem, określ:

Agent użytkownika: * Nie zezwalaj: /folder

Możesz także użyć gwiazdek, aby zastąpić dowolną nazwę:

Klient użytkownika: * Disallow: *.php

Ważne: gwiazdka zastępuje całą nazwę pliku, czyli nie można podać pliku*.php, tylko *.php (ale wszystkie strony z rozszerzeniem .php będą zabronione; aby tego uniknąć, możesz podać konkretny adres strony) .

Dyrektywa zezwolenia, jak wspomniano powyżej, służy do tworzenia wyjątków w zakazie (w przeciwnym razie nie ma ona żadnego znaczenia, ponieważ strony są już domyślnie otwarte).

Na przykład zabronimy indeksowania stron w folderze archiwum, ale stronę indeks.html z tego katalogu pozostawimy otwartą:

Zezwalaj: /archive/index.html Nie zezwalaj: /archiwum/

Określ hosta i mapę witryny

Host jest głównym lustrzanym odbiciem witryny (to znaczy nazwa domeny plus www lub nazwa domeny bez tego przedrostka). Host jest określony tylko dla robota Yandex (w tym przypadku musi istnieć co najmniej jedno polecenie uniemożliwiające).

Aby określić hosta, plik robots.txt musi zawierać następujący wpis:

Agent użytkownika: Yandex Disallow: Host: www.yoursite.ru

Jeśli chodzi o mapę witryny, w pliku robots.txt mapa witryny jest wskazywana poprzez proste zapisanie pełnej ścieżki do odpowiedniego pliku, ze wskazaniem nazwy domeny:

Mapa witryny: http://yoursite.ru/sitemap.xml

Jest napisane o tym, jak zrobić mapę witryny dla WordPress.

Przykładowy plik robots.txt dla WordPressa

W przypadku WordPress instrukcje muszą być określone w taki sposób, aby zamknąć wszystkie katalogi techniczne (wp-admin, wp-includes itp.) do indeksowania, a także zduplikowane strony utworzone przez tagi, pliki RSS, komentarze i wyszukiwanie.

Jako przykład pliku robots.txt dla wordpress możesz pobrać plik z naszej strony internetowej:

Agent użytkownika: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Zabroń: */feed Zabroń: */comments/ Zabroń: /?feed= Zabroń: /?s= Zabroń: */strona/* Zabroń: */comment Zabroń: */tag/* Zabroń: */ załącznik/* Zezwól: /wp-content/uploads/ Host: www..php Zabroń: /wp-register.php Zabroń: /xmlrpc.php Zabroń: /search Zabroń: */trackback Zabroń: */feed/ Zabroń: * /feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Zezwalaj: /wp -content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Zabroń: */feed/ Zabroń: */feed Zabroń: */comments/ Zabroń: /?feed= Zabroń: /?s= Zabroń: */strona/* Zabroń: */comment Zabroń: */tag/ * Nie zezwalaj: */attachment/* Zezwól: /wp-content/uploads/ Mapa witryny: https://www..xml

Możesz pobrać plik robots.txt z naszej strony internetowej za pomocą pliku .

Jeśli po przeczytaniu tego artykułu nadal masz jakieś pytania, zadaj je w komentarzach!