Jak skonfigurować robota txt. Zalecenia dotyczące konfigurowania pliku robots txt

Dom / Systemy operacyjne

Robots.txt to plik tekstowy zawierający parametry indeksowania witryny dla robotów wyszukiwarek.

Jak skonfigurować plik robots.txt

    Utwórz plik o nazwie robots.txt w edytorze tekstu i wypełnij go, korzystając z poniższych wskazówek.

    Sprawdź plik w usłudze Yandex.Webmaster (analiza Robots.txt w menu).

    Prześlij plik do katalogu głównego swojej witryny.

Dyrektywa User-Agent

YandexMedia - Indeksuje dane multimedialne.

Jeśli istnieją dyrektywy dla konkretnego robota, dyrektywy User-agent: Yahoo i User-agent: * nie są używane.

User-agent: YandexBot # będzie używany tylko przez głównego robota indeksującego Disallow: /*id= User-agent: Yandex # będzie używany przez wszystkie roboty Yandex Disallow: /*sid= # z wyjątkiem głównego robota indeksującego User-agent : * # nie będzie używane przez roboty Yandex. Disallow: /cgi-bin

Dyrektywy Disallow i Zezwalaj

Aby uniemożliwić robotowi dostęp do Twojej witryny lub niektórych jej sekcji, użyj dyrektywy Disallow.

User-agent: YandexDisallow: / # blokuje dostęp do całej witryny User-agent: YandexDisallow: /cgi-bin # blokuje dostęp do stron # zaczynających się od "/cgi-bin"

Zgodnie ze standardem przed każdą dyrektywą User-agent należy wstawić pustą linię.

Komentarz do projektów znaków #. Wszystko, co następuje po tym znaku, aż do pierwszego podziału wiersza, jest pomijane.

Użyj dyrektywy Zezwalaj, aby zezwolić robotowi na dostęp do określonych części witryny lub całej witryny.

User-agent: Yandex Zezwalaj: /cgi-bin Disallow: / # zabrania pobierania czegokolwiek z wyjątkiem stron # zaczynających się od „/cgi-bin”

Notatka. Puste podziały wierszy nie są dozwolone pomiędzy dyrektywami User-agent , Disallow i Zezwalaj.

Łączenie dyrektyw

Dyrektywy Zezwalaj i Nie zezwalaj z odpowiedniego bloku klienta użytkownika są sortowane według długości prefiksu adresu URL (od najkrótszego do najdłuższego) i stosowane w odpowiedniej kolejności. Jeśli do konkretnej strony witryny pasuje kilka dyrektyw, robot wybiera ostatnią z posortowanej listy. Dzięki temu kolejność dyrektyw w pliku robots.txt nie ma wpływu na sposób ich wykorzystania przez robota. Przykłady:

# Źródło robots.txt: User-agent: Yandex Zezwól: /catalog Disallow: / # Posortowane robots.txt: User-agent: Yandex Disallow: / Zezwól: /catalog # umożliwia tylko pobieranie stron # zaczynających się od „/catalog” # Źródło robots.txt: User-agent: Yandex Zezwalaj: /Allow: /catalog/auto Disallow: /catalog # Posortowane robots.txt: User-agent: Yandex Zezwalaj: / Disallow: /catalog Zezwalaj: /catalog/auto # zakazy pobierania stron zaczynający się od „/catalog”, #, ale umożliwia pobieranie stron rozpoczynających się od „/catalog/auto”.

Dyrektywy Zezwól i Zabroń bez parametrów

Jeśli dyrektywy nie zawierają parametrów, robot obsługuje dane w następujący sposób:

Agent użytkownika: Yandex Disallow: # taki sam jak Zezwalaj: / User-agent: Yandex Zezwól: # nie jest brany pod uwagę przez robota

Używanie znaków specjalnych * i $

Możesz użyć znaków specjalnych * i $, aby ustawić wyrażenia regularne podczas określania ścieżek dla dyrektyw Zezwalaj i Nie zezwalaj. Znak * wskazuje dowolny ciąg znaków (lub żaden). Przykłady:

Agent użytkownika: Yandex Disallow: /cgi-bin/*.aspx # zakazy „/cgi-bin/example.aspx” # i „/cgi-bin/private/test.aspx” Disallow: /*private # zakazują obu „ /private", # i "/cgi-bin/private"

Znak $

Domyślnie znak * jest dodawany na końcu każdej reguły opisanej w pliku robots.txt. Przykład:

Agent użytkownika: Yandex Disallow: /cgi-bin* # blokuje dostęp do stron # zaczynających się od „/cgi-bin”Disallow: /cgi-bin # to samo

Aby anulować * na końcu reguły, użyj znaku $, na przykład:

Agent użytkownika: Yandex Disallow: /example$ # zabrania „/example”, #, ale zezwala na „/example.html” Klient użytkownika: Yandex Disallow: /example # zabrania zarówno „/example”, #, jak i „/example.html” " Znak $ nie zabrania * na końcu, to znaczy: User-agent: Yandex Disallow: /example$ # zabrania tylko "/example" Disallow: /example*$ # dokładnie tak samo jak "Disallow: /example" # zabrania zarówno /example.html, jak i /example

Dyrektywa dotycząca mapy witryny

Jeśli do opisu struktury witryny używasz pliku mapy witryny, wskaż ścieżkę do pliku jako parametr dyrektywy Sitemap (jeśli masz wiele plików, wskaż wszystkie ścieżki). Przykład:

Agent użytkownika: Yandex Zezwalaj: / mapa witryny: https://example.com/site_structure/my_sitemaps1.xml Mapa witryny: https://example.com/site_structure/moja_sitemaps2.xml

Dyrektywa ma charakter intersekcjonalny, co oznacza, że ​​jest używana przez robota niezależnie od jego lokalizacji w pliku robots.txt.

Robot zapamiętuje ścieżkę do Twojego pliku, przetwarza Twoje dane i wykorzystuje wyniki podczas kolejnej wizyty na Twojej stronie.

Dyrektywa dotycząca opóźnienia indeksowania

Jeśli serwer jest przeciążony i nie można przetworzyć żądań pobierania, użyj dyrektywy Crawl-delay. Możesz określić minimalny odstęp (w sekundach), jaki robot wyszukiwania ma czekać po pobraniu jednej strony, przed rozpoczęciem pobierania kolejnej.

Aby zachować kompatybilność z robotami, które podczas przetwarzania pliku robots.txt mogą odbiegać od standardów, dodaj dyrektywę Crawl-delay do grupy rozpoczynającej się od wpisu User-Agent zaraz po dyrektywach Disallow i Enable.

Robot wyszukiwania Yandex obsługuje wartości ułamkowe dla opóźnienia indeksowania, takie jak „0,5”. Nie oznacza to, że robot wyszukiwania będzie odwiedzał Twoją witrynę co pół sekundy, ale może przyspieszyć przetwarzanie witryny.

Agent użytkownika: Yandex Opóźnienie indeksowania: 2 # ustawia 2-sekundowy limit czasu Klient użytkownika: * Disallow: /search Opóźnienie indeksowania: 4,5 # ustawia 4,5-sekundowy limit czasu

Dyrektywa Clean-param

Jeśli adresy stron Twojej witryny zawierają parametry dynamiczne, które nie wpływają na treść (na przykład identyfikatory sesji, użytkowników, stron odsyłających itd.), możesz je opisać za pomocą dyrektywy Clean-param.

Robot Yandex wykorzystuje te informacje, aby uniknąć ponownego ładowania zduplikowanych informacji. Poprawia to wydajność robota i zmniejsza obciążenie serwera.

Na przykład Twoja witryna zawiera następujące strony:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Parametr ref służy tylko do śledzenia, z jakiego zasobu wysłano żądanie. Nie zmienia to zawartości strony. Wszystkie trzy adresy URL wyświetlą tę samą stronę z książką book_id=123. Jeśli wskażesz dyrektywę w następujący sposób:

Agent użytkownika: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

robot Yandex zbierze wszystkie adresy stron w jeden:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Jeżeli w serwisie dostępna jest strona bez parametrów:

www.example.com/some_dir/get_book.pl?book_id=123

wszystkie inne adresy URL są nim zastępowane po zaindeksowaniu przez robota. Inne strony Twojej witryny będą indeksowane częściej, ponieważ nie będzie potrzeby ich aktualizowania:

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Składnia dyrektywy

Parametr czyszczenia: p0[&p1&p2&..&pn]

W pierwszym polu wypisz parametry, które należy pominąć, oddzielając je znakiem &. W drugim polu wskaż prefiks ścieżki stron, których ma dotyczyć reguła.

Przedrostek może zawierać wyrażenie regularne w formacie podobnym do tego użytego w pliku robots.txt, jednak z pewnymi ograniczeniami: można używać wyłącznie znaków A-Za-z0-9.-/*_ . Jednakże * jest interpretowane w taki sam sposób, jak w pliku robots.txt. Znak * jest zawsze domyślnie dodawany na końcu przedrostka. Na przykład:

Wyczyść parametry: s /forum/showthread.php

oznacza, że ​​parametr s jest pomijany w przypadku wszystkich adresów URL rozpoczynających się od /forum/showthread.php . Drugie pole jest opcjonalne i w tym przypadku reguła będzie obowiązywać na wszystkich stronach serwisu. Wielkość liter ma znaczenie. Maksymalna długość reguły wynosi 500 znaków. Na przykład:

Parametr czyszczenia: abc /forum/showthread.php Parametr czyszczenia: sid&sort /forum/*.php Parametr czyszczenia: SomeTrash&otherTrash

Dodatkowe przykłady

#dla adresów takich jak:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243 #robots.txt będzie zawierać następujące elementy: User- agent: Yandex Disallow: Clean-param: s /forum/showthread.php #dla adresów takich jak:www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php?page= 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt będzie zawierać następujące elementy: User-agent: Yandex Disallow: Clean-param: sid /index.php #jeśli istnieje kilka z tych parametrów:www.example1.com/forum_old/showthread.php ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt będzie zawierać następujące elementy: User-agent: Yandex Disallow: Clean-param: s&ref /forum */showthread.php #jeśli parametr jest używany w wielu skryptach:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e71c4427317a117a&t=8243 # plik robots.txt będzie zawierał następujące elementy: Klient użytkownika: Yandex Disallow: Parametr czysty: s /forum/index.php Parametr czysty: s /forum/showthread.php

Używanie znaków cyrylicy

Niedozwolone jest używanie cyrylicy w pliku robots.txt i nagłówkach serwera HTTP.

W przypadku nazw domen użyj Punycode . W przypadku adresów stron użyj tego samego kodowania, jakie zostało użyte w bieżącej strukturze witryny.

Przykład pliku robots.txt:

#Niepoprawne: Klient użytkownika: Yandex Disallow: / koszyk Mapa witryny: site.рф/sitemap.xml #Poprawne: Klient użytkownika: Yandex Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 Mapa witryny: http://xn--80aswg.xn--p1ai/sitemap.xml

Dodatkowe informacje

Robot Yandex obsługuje tylko dyrektywy robots.txt wymienione na tej stronie. Opisane powyżej zasady przetwarzania plików stanowią rozwinięcie podstawowego standardu. Inne roboty mogą inaczej interpretować zawartość pliku robots.txt.

Wyniki w przypadku korzystania z rozszerzonego formatu robots.txt mogą różnić się od wyników wykorzystujących podstawowy standard, w szczególności:

Agent użytkownika: Yandex Zezwól: / Nie zezwalaj: /# bez rozszerzeń wszystko było zabronione, ponieważ „Zezwalaj: /” zostało zignorowane, # z obsługiwanymi rozszerzeniami, wszystko jest dozwolone Klient użytkownika: Yandex Disallow: /private*html # bez rozszerzeń, ” /private*html” było zabronione, # z obsługiwanymi rozszerzeniami, „/private*html”, # „/private/test.html”, „/private/html/test.aspx” i tak dalej są również zabronione. agent: Yandex Disallow: /private$ # bez obsługiwanych rozszerzeń, „/private$” i „/private$test” itd. były zabronione, # z obsługiwanymi rozszerzeniami, tylko „/private” jest zabronione Agent użytkownika: * Nie zezwalaj : / User-agent: Yandex Zezwól: / # bez obsługi rozszerzeń, z powodu brakującego podziału wiersza, # „User-agent: Yandex” zostanie zignorowane # wynikiem będzie „Disallow: /”, ale robot Yandex # analizuje ciągi oparte na podciągu „User-agent:”. # W tym przypadku wynikiem dla robota Yandex jest „Zezwalaj: /” Klient użytkownika: * Nie zezwalaj: / # komentarz1... # komentarz2... # komentarz3... Agent użytkownika: Yandex Zezwalaj: / # to samo jak w poprzednim przykładzie (patrz wyżej)

Przykłady wykorzystania rozszerzonego formatu pliku robots.txt:

Agent użytkownika: Yandex Zezwalaj: /archive Nie zezwalaj: / # zezwala na wszystko, co zawiera „/archive”; reszta jest zabroniona User-agent: Yandex Zezwól: /obsolete/private/*.html$ # zezwala na pliki HTML # w ścieżce „/obsolete/private/...” Disallow: /*.php$ # probibits all „* .php” na stronieDisallow: /*/private/ # zabrania wszystkich podścieżek zawierających # „/private/”, ale powyższe zezwolenie neguje # część zakazu Disallow: /*/old/*.zip$ # zabrania wszystkich „*. zip” zawierające # „/old/” w ścieżce User-agent: Yandex Disallow: /add.php?*user= # zabrania wszystkim „add.php?” skrypty z opcją „user”.

Tworząc plik robots.txt należy pamiętać, że robot ustala rozsądne ograniczenie jego rozmiaru. Jeśli rozmiar pliku przekracza 32 KB, robot zakłada, że ​​pozwala na wszystko, co oznacza, że ​​jest interpretowany w ten sam sposób.

Prawidłowa konfiguracja pliku robots.txt wyeliminuje tę sytuację możliwe problemy, powstałe podczas indeksowania.

W szczególności właściciel witryny ma możliwość ograniczenia indeksowania sekcji usługowych i osobistych zasobu. Jak utworzyć plik i skonfigurować go dla różnych wyszukiwarek, a także popularnych CMS-ów - porozmawiamy w tej publikacji.

Do czego służy plik robots.txt?

Jak można się domyślić, plik ten zawiera instrukcje przeznaczone dla botów wyszukujących. Musi być umieszczony w katalogu głównym, aby boty rozpoczęły indeksowanie strony, czytając warunki określone w pliku robots.txt.

W ten sposób plik wskazuje robotom przeszukującym, które katalogi witryny mogą być indeksowane, a które nie podlegają temu procesowi.

Biorąc pod uwagę, że obecność pliku nie ma wpływu na proces rankingu, wiele witryn nie zawiera pliku robots.txt. Ale to nieprawda właściwy sposób. Przyjrzyjmy się zaletom, jakie plik robots.txt daje zasobowi.

Możesz zabronić indeksowania zasobu w całości lub w części oraz ograniczyć zakres robotów wyszukujących, które będą miały prawo przeprowadzać indeksowanie. Możesz całkowicie zabezpieczyć zasób przed tym procesem (na przykład podczas tworzenia lub rekonstrukcji strony internetowej).

Ponadto plik robots ogranicza dostęp do zasobu wszelkiego rodzaju robotom spamowym, których celem jest przeskanowanie witryny pod kątem obecności adresy e-mail, które będą następnie wykorzystywane do wysyłania spamu. Nie rozwodźmy się nad tym, do czego to może doprowadzić – i jest to zrozumiałe.

Możesz ukryć przed indeksowaniem sekcje witryny, które nie są przeznaczone dla wyszukiwarek, ale dla określonego kręgu użytkowników, sekcje zawierające informacje prywatne i inne podobne.

Jak utworzyć poprawny plik robots.txt

Odpowiednie roboty można łatwo napisać ręcznie, bez uciekania się do pomocy różnych konstruktorów. Proces sprowadza się do zapisania niezbędnych dyrektyw w zwykłym pliku notatnika, który następnie należy zapisać pod nazwą „robots” i wgrać do katalogu głównego własnego zasobu. Dla jednej witryny potrzebny jest jeden taki plik. Może zawierać instrukcje dla botów wyszukiwania wszystkich odpowiednich wyszukiwarek. Oznacza to, że nie ma potrzeby tworzenia osobnego pliku dla każdej wyszukiwarki.

Co należy zapisać w pliku? Obowiązkowe jest użycie dwóch dyrektyw: User-agent i Disallow. Pierwszy określa, do którego bota skierowana jest ta wiadomość, drugi pokazuje, która strona lub katalog zasobów nie może być indeksowany.

Aby ustawić te same reguły dla wszystkich botów, możesz użyć symbolu gwiazdki zamiast nazwy w dyrektywie User-agent.
Plik robots.txt w tym przypadku będzie wyglądał następująco:

Nawiasem mówiąc, programiści Google wielokrotnie przypominali webmasterom, że rozmiar pliku robots.txt nie powinien przekraczać 500 KB. Z pewnością będzie to prowadzić do błędów podczas indeksowania. Jeśli tworzysz plik ręcznie, to „osiągnięcie” takiego rozmiaru jest oczywiście nierealne. Jednak niektóre systemy CMS, które automatycznie generują zawartość pliku robots.txt, mogą znacznie go obciążyć.

Z łatwością utwórz plik dla dowolnej wyszukiwarki

Jeśli boisz się popełnić błędy przy pisaniu pliku (lub po prostu jesteś na to zbyt leniwy), możesz powierzyć stworzenie niezbędnych dyrektyw konstruktorowi. Jest to tak proste, jak dwa razy dwa, ale nadal podamy krótkie wyjaśnienie, jak z nim pracować.

Pierwsze pole zawiera adres zasobu. Dopiero po tym użytkownik będzie miał możliwość wyboru wyszukiwarki, dla której ustawione są te reguły (można wybrać kilka wyszukiwarek sekwencyjnie). Następnie musisz określić foldery i pliki, do których dostęp będzie zabroniony, podać adres kopii lustrzanej witryny i wskazać lokalizację mapy zasobów.

Po wypełnieniu pól wymagane katalogi zostaną wpisane w dolnym polu. Na koniec wystarczy skopiować je do pliku txt i nadać mu nazwę robots.

Jak sprawdzić skuteczność pliku robots.txt

Aby przeanalizować działanie pliku w Yandex, należy przejść do odpowiedniej strony w sekcji Yandex.Webmaster. W oknie dialogowym podaj nazwę witryny i kliknij przycisk „pobierz”.

System przeanalizuje plik robots.txt i wskaże, czy robot wyszukiwania będzie indeksował strony, których indeksowanie jest zabronione. Jeśli pojawią się problemy, dyrektywy można edytować i testować bezpośrednio w oknie dialogowym, a następnie kopiować i wklejać do pliku robots.txt w katalogu głównym.

Podobną usługę zapewnia usługa Narzędzia dla webmasterów z poziomu wyszukiwarki Google.

Tworzenie pliku robots.txt dla WordPress, Joomla i Ucoz

Różne systemy CMS, które zyskały dużą popularność w naszych otwartych przestrzeniach, oferują użytkownikom własne wersje plików robots.txt (lub nie mają ich wcale). Często pliki te są albo zbyt uniwersalne i nie uwzględniają cech zasobu użytkownika, albo mają szereg istotnych niedociągnięć.

Możesz spróbować wprowadzić w nich zmiany ręcznie (co jest mało skuteczne, jeśli brakuje Ci wiedzy) lub możesz skorzystać z doświadczenia bardziej profesjonalnych kolegów. Jak to mówią, wszystko było już przed nami zrobione. Na przykład plik robots.txt dla WordPressa może wyglądać następująco:


Linię www.site.ru należy oczywiście zastąpić adresem strony internetowej użytkownika.

Zablokuj indeksowanie następującym botom:

Dla każdego
Yandex
Google
Mail.ru
Rammlera
Bing
Wieśniak

Główna domena serwisu:

Limit czasu między przejściami robota między stronami:
1 sekunda 5 sekund 10 sekund 60 sekund

Przejdźmy do mapy serwisu, sitemap.xml:

Gotowy plik robots.txt:

Zapisz dane w pliku „robots.txt” i skopiuj je do folderu głównego witryny.


Do czego służy narzędzie „Generator pliku Robots.txt”?

W serwisie udostępniamy narzędzie „Generator pliku robots.txt”, za pomocą którego w ciągu kilku sekund możesz utworzyć plik robots.txt online, a także ustawić zakaz indeksowania stron serwisu przez określone wyszukiwarki.

Co to jest plik robots.txt

Robots.txt to plik znajdujący się w katalogu głównym witryny i zawierający instrukcje dla botów wyszukujących. Odwiedzając dowolny zasób, roboty zaczynają się z nim zapoznawać z pliku robots.txt - swego rodzaju „instrukcji użytkowania”. Wydawca wskazuje ten plik jak robot musi wchodzić w interakcję z zasobem. Może na przykład zawierać zakaz indeksowania niektórych stron lub zalecenie zachowania odstępu czasowego pomiędzy zapisaniem dokumentów z serwera WWW.

Możliwości narzędzia

Webmaster może ustawić zakaz indeksowania przez roboty wyszukiwarek Yandex, Google, Mail.ru, Rambler, Bing lub Yahoo!, a także ustawić limit czasu pomiędzy przejściami robotów wyszukiwania na stronach zasobów i zabronić indeksowania wybranych stron witryny strona. Dodatkowo w specjalnej linii możesz wskazać robotom przeszukiwającym ścieżkę do mapy serwisu (sitemap.xml).

Po wypełnieniu wszystkich pól narzędzia i kliknięciu przycisku „Utwórz” system automatycznie wygeneruje plik dla botów wyszukujących, który należy umieścić w strefie głównej swojej witryny.

Należy pamiętać, że pliku robots.txt nie można użyć do ukrycia strony przed wynikami wyszukiwania, ponieważ inne zasoby mogą do niej prowadzić, a roboty wyszukiwania w ten czy inny sposób ją zaindeksują. Przypominamy, że aby zablokować stronę w wynikach wyszukiwania należy użyć specjalnego tagu „noindex” lub ustawić hasło.

Warto również zaznaczyć, że korzystając z narzędzia Generator Robots.txt utworzysz plik o charakterze czysto doradczym. Oczywiście boty „słuchają” instrukcji pozostawionych im przez webmasterów w pliku robots.txt, ale czasami je ignorują. Dlaczego tak się dzieje? Ponieważ każdy robot wyszukujący ma swoje ustawienia, według których interpretuje informacje otrzymane z pliku robots.txt.

Plik sitemap.xml i prawidłowy plik robots.txt dla witryny to dwa obowiązkowe dokumenty, które przyczyniają się do szybkiego i pełnego indeksowania wszystkich niezbędnych stron zasobu internetowego przez roboty wyszukujące. Prawidłowe indeksowanie witryny w Yandex i Google jest kluczem do skutecznej promocji bloga w wyszukiwarkach.

Pisałem już jak zrobić mapę witryny w formacie XML i dlaczego jest ona potrzebna. Porozmawiajmy teraz o tym, jak utworzyć poprawny plik robots.txt dla witryny WordPress i ogólnie dlaczego jest on potrzebny. Szczegółowe informacje informacje o tym pliku można uzyskać odpowiednio od Yandex i Google. Przejdę do sedna i omówię podstawowe ustawienia pliku robots.txt dla WordPressa, używając mojego pliku jako przykładu.

Dlaczego potrzebujesz pliku robots.txt dla witryny internetowej?

Standard robots.txt pojawił się w styczniu 1994 roku. Skanując zasób sieciowy, najpierw wyszukują roboty wyszukujące plik tekstowy robots.txt, znajdujący się w folderze głównym witryny lub bloga. Za jego pomocą możemy określić pewne reguły dla robotów różnych wyszukiwarek, według których będą indeksować witrynę.

Prawidłowa konfiguracja pliku robots.txt umożliwi Ci:

  • wykluczyć z indeksu duplikaty i różne niepotrzebne strony;
  • zakazać indeksowania stron, plików i folderów, które chcemy ukryć;
  • generalnie odmawiają indeksowania niektórym robotom wyszukiwania (na przykład Yahoo, aby ukryć przed konkurencją informacje o przychodzących linkach);
  • wskazać główne lustro witryny (z www lub bez www);
  • określ ścieżkę do mapy witryny sitemap.xml.

Jak utworzyć poprawny plik robots.txt dla witryny

Istnieją do tego specjalne generatory i wtyczki, ale lepiej jest to zrobić ręcznie.

Wystarczy, że za pomocą dowolnego edytora tekstu (na przykład Notatnika lub Notepad++) utworzysz zwykły plik tekstowy o nazwie robots.txt i prześlesz go na swój hosting w folderze głównym swojego bloga. W tym pliku muszą być zapisane pewne dyrektywy, tj. zasady indeksowania dla robotów Yandex, Google itp.

Jeśli jesteś zbyt leniwy, aby się tym przejmować, poniżej podam przykład, z mojego punktu widzenia, prawidłowego pliku robots.txt dla WordPressa z mojego bloga. Możesz z niego skorzystać zastępując nazwę domeny w trzech miejscach.

Zasady i wytyczne dotyczące tworzenia pliku robots.txt

Aby odnieść sukces optymalizacja wyszukiwarek blog musisz poznać kilka zasad tworzenia pliku robots.txt:

  • Nieobecność lub pusty plik plik robots.txt będzie oznaczać, że wyszukiwarki będą mogły indeksować całą zawartość zasobu sieciowego.
  • plik robots.txt powinien otworzyć się pod adresem site.ru/robots.txt, dając robotowi kod odpowiedzi 200 OK i mieć rozmiar nie większy niż 32 KB. Plik, którego nie można otworzyć (na przykład z powodu błędu 404) lub jest większy, zostanie uznany za prawidłowy.
  • Liczba dyrektyw w pliku nie powinna przekraczać 1024. Długość jednej linii nie powinna przekraczać 1024 znaków.
  • Prawidłowy plik robots.txt może zawierać wiele instrukcji, z których każda musi zaczynać się od dyrektywy User-agent i musi zawierać co najmniej jedną dyrektywę Disallow. Zwykle piszą instrukcje w pliku robots.txt dla Google i wszystkich innych robotów oraz osobno dla Yandex.

Podstawowe dyrektywy pliku robots.txt:

User-agent – ​​wskazuje do jakiego robota wyszukującego skierowana jest instrukcja.

Symbol „*” oznacza, że ​​dotyczy to wszystkich robotów, na przykład:

Klient użytkownika: *

Jeśli potrzebujemy utworzyć regułę w pliku robots.txt dla Yandex, piszemy:

Agent użytkownika: Yandex

Jeśli dla konkretnego robota określono dyrektywę, dyrektywa User-agent: * nie jest przez niego brana pod uwagę.

Zabroń i Zezwól – odpowiednio zabraniaj i zezwalaj robotom na indeksowanie określonych stron. Wszystkie adresy należy podać z katalogu głównego witryny, tj. zaczynając od trzeciego ukośnika. Na przykład:

  • Zakazanie wszystkim robotom indeksowania całej witryny:

    Klient użytkownika: *
    Uniemożliwić: /

  • Yandex nie może indeksować wszystkich stron zaczynających się od /wp-admin:

    Agent użytkownika: Yandex
    Nie zezwalaj: /wp-admin

  • Pusta dyrektywa Disallow umożliwia indeksowanie wszystkiego i jest podobna do dyrektywy Zezwalaj. Na przykład pozwalam Yandexowi zaindeksować całą witrynę:

    Agent użytkownika: Yandex
    Uniemożliwić:

  • I odwrotnie, zabraniam wszystkim robotom wyszukiwania indeksowania wszystkich stron:

    Klient użytkownika: *
    Umożliwić:

  • Dyrektywy Zezwalaj i Nie zezwalaj z tego samego bloku klienta użytkownika są sortowane według długości prefiksu adresu URL i wykonywane sekwencyjnie. Jeśli dla jednej strony witryny pasuje kilka dyrektyw, wykonywana jest ostatnia z listy. Teraz kolejność, w jakiej są zapisane, nie ma znaczenia, gdy robot używa dyrektyw. Jeśli dyrektywy mają przedrostki o tej samej długości, najpierw wykonywana jest funkcja Zezwalaj. Zasady te weszły w życie 8 marca 2012 roku. Na przykład pozwala na indeksowanie tylko stron rozpoczynających się od /wp-includes:

    Agent użytkownika: Yandex
    Uniemożliwić: /
    Zezwalaj: /wp-includes

Mapa witryny — określa adres mapy witryny XML. Jedna witryna może mieć kilka dyrektyw dotyczących mapy witryny, które można zagnieżdżać. Aby przyspieszyć indeksowanie witryny, należy podać wszystkie adresy plików map witryn w pliku robots.txt:

Mapa witryny: http://site/sitemap.xml.gz
Mapa witryny: http://site/sitemap.xml

Host – mówi robotowi lustrzanemu, które lustro witryny ma wziąć pod uwagę jako główne.

Jeśli witryna jest dostępna pod kilkoma adresami (na przykład z www i bez www), wówczas powstają kompletne zduplikowane strony, które mogą zostać przechwycone przez filtr. Również w tym przypadku może nie być indeksowana strona główna, ale strona główna, wręcz przeciwnie, zostanie wykluczona z indeksu wyszukiwarka. Aby temu zapobiec, użyj dyrektywy Host, która w pliku robots.txt jest przeznaczona tylko dla Yandex i może być tylko jedna. Jest napisany po Disallow i Pozwól i wygląda następująco:

Gospodarz: strona internetowa

Opóźnienie indeksowania – ustawia opóźnienie pomiędzy pobieraniem stron w sekundach. Używane, jeśli występuje duże obciążenie i serwer nie ma czasu na przetwarzanie żądań. W młodych witrynach lepiej nie używać dyrektywy dotyczącej opóźnienia indeksowania. Jest napisane tak:

Agent użytkownika: Yandex
Opóźnienie indeksowania: 4

Clean-param - obsługiwany tylko przez Yandex i służy do eliminowania duplikatów stron ze zmiennymi, łącząc je w jedną. Dzięki temu robot Yandex nie będzie wielokrotnie pobierał podobnych stron, na przykład tych powiązanych z linkami polecającymi. Nie korzystałem jeszcze z tej dyrektywy, ale w pomocy dotyczącej pliku robots.txt dla Yandex, kliknij link na początku artykułu, możesz szczegółowo przeczytać tę dyrektywę.

Znaki specjalne * i $ są używane w pliku robots.txt do wskazania ścieżek dyrektyw Disallow i Enable:

  • Znak specjalny „*” oznacza dowolny ciąg znaków. Na przykład Disallow: /*?* oznacza zakaz na stronach, na których w adresie pojawia się „?”, niezależnie od tego, jakie znaki występują przed i po tym znaku. Domyślnie na końcu każdej reguły dodawany jest znak specjalny „*”, nawet jeśli nie jest to wyraźnie określone.
  • Symbol „$” anuluje „*” na końcu reguły i oznacza ścisłe dopasowanie. Na przykład dyrektywa Disallow: /*?$ zabrania indeksowania stron kończących się znakiem „?”.

Przykładowy plik robots.txt dla WordPressa

Oto przykład mojego pliku robots.txt dla bloga na silniku WordPress:

Agent użytkownika: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Zabroń: /cgi-bin Zabroń: /wp-admin Zabroń: /wp-includes Zabroń: /wp-content/plugins Zabroń: /wp-content/cache Zabroń: /wp-content/themes Zabroń: /trackback Zabroń: */ trackback Zabroń: */*/trackback Zabroń: /feed/ Zabroń: */*/feed/*/ Zabroń: */feed Zabroń: /*?* Zabroń: /?.ru/sitemap.xml..xml

Agent użytkownika: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Zabroń: /cgi-bin Zabroń: /wp-admin Zabroń: /wp-includes Zabroń: /wp-content/plugins Zabroń: /wp-content/cache Zabroń: /wp-content/themes Zabroń: /trackback Zabroń: */ trackback Zabroń: */*/trackback Zabroń: /feed/ Zabroń: */*/feed/*/ Zabroń: */feed Zabroń: /*?* Zabroń: /?.ru/sitemap.xml..xml

Aby nie oszukiwać się przy tworzeniu poprawnego pliku robots.txt dla WordPressa, możesz skorzystać z tego pliku. Nie ma problemów z indeksacją. Mam skrypt zabezpieczający przed kopiowaniem, więc wygodniej będzie pobrać gotowy plik robots.txt i wrzucić go na swój hosting. Tylko nie zapomnij zastąpić nazwy mojej witryny swoją w dyrektywach dotyczących hosta i mapy witryny.

Przydatne dodatki do prawidłowego skonfigurowania pliku robots.txt dla WordPressa

Jeśli na Twoim blogu WordPress są zainstalowane komentarze w postaci drzewa, tworzą one zduplikowane strony w postaci ?replytocom= . W pliku robots.txt takie strony są zamykane za pomocą dyrektywy Disallow: /*?*. Ale to nie jest rozwiązanie i lepiej usunąć zakazy i walczyć z Reptocom w inny sposób. Co, .

Zatem aktualny plik robots.txt z lipca 2014 r. wygląda następująco:

Agent użytkownika: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -zawiera Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru Klient użytkownika: Googlebot-Image Zezwalaj: /wp-content /uploads/ Klient użytkownika: YandexImages Zezwalaj: /wp-content/uploads/ Mapa witryny: http://site.ru/sitemap.xml

Agent użytkownika: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -zawiera Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru Klient użytkownika: Googlebot-Image Zezwalaj: /wp-content /uploads/ Klient użytkownika: YandexImages Zezwalaj: /wp-content/uploads/ Mapa witryny: http://site.ru/sitemap.xml

Określa dodatkowo zasady działania robotów indeksujących obrazy.

Agent użytkownika: Mediapartners-Google
Uniemożliwić:

Jeśli planujesz promować strony kategorii lub tagów, powinieneś otworzyć je dla robotów. Przykładowo na stronie blogowej kategorie nie są wyłączone z indeksowania, gdyż publikują jedynie drobne zapowiedzi artykułów, co jest dość nieistotne z punktu widzenia powielania treści. A jeśli użyjesz wyświetlania cytatów w kanale bloga, które są wypełnione unikalnymi ogłoszeniami, to nie będzie żadnego powielania.

Jeśli nie korzystasz z powyższej wtyczki, możesz określić w swoim pliku robots.txt, aby zabronić indeksowania tagów, kategorii i archiwów. Na przykład dodanie następujących linii:

Nie zezwalaj: /autor/
Nie zezwalaj: /tag
Nie zezwalaj: /kategoria/*/*
Nie zezwalaj: /20*

Nie zapomnij sprawdzić pliku robots.txt w panelu Yandex.Webmaster, a następnie ponownie prześlij go na swój hosting.

Jeżeli masz jakieś dodatki do konfiguracji pliku robots.txt napisz o tym w komentarzach. Obejrzyj teraz film o tym, co to jest i jak utworzyć poprawny plik robots.txt dla witryny, jak zabronić indeksowania w pliku robots.txt i poprawić błędy.

Plik robots.txt znajduje się w katalogu głównym Twojej witryny. Na przykład w witrynie www.example.com adres pliku robots.txt będzie wyglądał następująco: www.example.com/robots.txt. Plik robots.txt to zwykły plik tekstowy zgodny ze standardem wykluczania robotów i zawierający jedną lub więcej reguł, z których każda uniemożliwia określonemu robotowi dostęp do określonej ścieżki w witrynie lub zezwala na nią.

Oto przykład prosty plik plik robots.txt z dwiema regułami. Poniżej znajdują się wyjaśnienia.

# Klient użytkownika grupy 1: Googlebot Disallow: /nogooglebot/ # Klient użytkownika grupy 2: * Zezwól: / Mapa witryny: http://www.example.com/sitemap.xml

Wyjaśnienia

  1. Klient użytkownika o nazwie Googlebot nie powinien indeksować katalogu http://example.com/nogooglebot/ i jego podkatalogów.
  2. Wszystkie pozostałe programy użytkownika mają dostęp do całej witryny (można je pominąć, wynik będzie taki sam, ponieważ domyślnie przyznany jest pełny dostęp).
  3. Plik mapy witryny ta witryna znajduje się pod adresem http://www.example.com/sitemap.xml.

Poniżej znajduje się kilka wskazówek dotyczących pracy z plikami robots.txt. Zalecamy przestudiowanie pełnej składni tych plików, ponieważ zasady składni użyte do ich utworzenia nie są oczywiste i należy je zrozumieć.

Format i układ

Możesz utworzyć plik robots.txt w prawie każdym edytorze tekstu obsługującym kodowanie UTF-8. Nie używać procesory tekstu, ponieważ często zapisują pliki w zastrzeżonym formacie i dodają nieprawidłowe znaki, takie jak cudzysłowy, które nie są rozpoznawane przez roboty wyszukiwania.

Podczas tworzenia i testowania plików robots.txt korzystaj z narzędzia testującego. Pozwala przeanalizować składnię pliku i dowiedzieć się, jak będzie on funkcjonował na Twojej stronie.

Zasady dotyczące formatu i lokalizacji pliku

  • Plik powinien mieć nazwę robots.txt.
  • Na stronie powinien znajdować się tylko jeden taki plik.
  • Należy umieścić plik robots.txt katalog główny strona. Na przykład, aby kontrolować indeksowanie wszystkich stron witryny http://www.example.com/, plik robots.txt powinien znajdować się pod adresem http://www.example.com/robots.txt. Nie powinien znajdować się w podkatalogu(na przykład pod adresem http://example.com/pages/robots.txt). Jeśli masz trudności z dostępem do katalogu głównego, skontaktuj się ze swoim dostawcą usług hostingowych. Jeśli nie masz dostępu do katalogu głównego witryny, użyj metoda alternatywna blokady, takie jak metatagi.
  • Plik robots.txt można dodać do adresów za pomocą subdomeny(na przykład http:// strona internetowa.example.com/robots.txt) lub niestandardowe porty (na przykład http://example.com: 8181 /robots.txt).
  • Dowolny tekst po symbolu # jest uważany za komentarz.

Składnia

  • Plik robots.txt musi być plikiem tekstowym zakodowanym w formacie UTF-8 (który obejmuje kody znaków ASCII). Nie można używać innych zestawów znaków.
  • Plik robots.txt składa się z grupy.
  • Każdy grupa może zawierać kilka zasady, po jednym w wierszu. Zasady te są również nazywane dyrektywy.
  • W grupie znajdują się następujące informacje:
    • Do którego agent użytkownika Obowiązują dyrektywy grupowe.
    • mieć dostęp.
    • Do jakich katalogów lub plików ma dostęp ten agent? dostęp wzbroniony.
  • Instrukcje grupowe czytane są od góry do dołu. Robot będzie przestrzegał zasad tylko jednej grupy z agentem użytkownika, który jest do niej najbardziej zbliżony.
  • Domyślnie zakłada sięże jeśli dostęp do strony lub katalogu nie jest blokowany przez regułę Disallow:, wówczas agent użytkownika może go przetworzyć.
  • Zasady wielkość liter ma znaczenie. Zatem reguła Disallow: /file.asp ma zastosowanie do adresu URL http://www.example.com/file.asp, ale nie do http://www.example.com/File.asp.

Dyrektywy używane w plikach robots.txt

  • Klient użytkownika: Dyrektywa obowiązkowa, może być ich kilka w grupie. Określa, która wyszukiwarka robot zasady muszą obowiązywać. Każda grupa zaczyna od tej linii. Większość programów użytkownika związanych z Google Robots można znaleźć na specjalnej liście oraz w Internetowej Bazie Robotów. Obsługiwany jest znak wieloznaczny * w celu wskazania przedrostka, przyrostka ścieżki lub całej ścieżki. Użyj znaku *, jak pokazano w poniższym przykładzie, aby zablokować dostęp wszystkim robotom ( z wyjątkiem robotów AdsBot, które należy określić osobno). Zalecamy zapoznanie się z listą robotów Google. Przykłady:# Przykład 1. Blokowanie dostępu tylko dla Googlebota User-agent: Googlebot Disallow: / # Przykład 2. Blokowanie dostępu dla Googlebota i robotów AdsBot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Przykład 3. Blokowanie dostępu do wszystkie roboty, z wyjątkiem klienta użytkownika AdsBot: * Nie zezwalaj: /
  • Uniemożliwić: . Wskazuje katalog lub stronę związaną z domeną główną, której nie może przeszukać zdefiniowany powyżej klient użytkownika. Jeśli jest to strona, należy podać pełną ścieżkę do niej, tak jak w pasku adresu przeglądarki. Jeśli jest to katalog, ścieżka musi kończyć się ukośnikiem (/). Obsługiwany jest znak wieloznaczny * w celu wskazania przedrostka, przyrostka ścieżki lub całej ścieżki.
  • Umożliwić: Co najmniej jedna dyrektywa Disallow: lub Zezwalaj musi znajdować się w każdej grupie. Wskazuje katalog lub stronę związaną z domeną główną, która może zostać przeszukana przez klienta użytkownika zdefiniowanego powyżej. Służy do zastąpienia dyrektywy Disallow i umożliwienia skanowania podkatalogu lub strony w katalogu, który jest zamknięty do skanowania. Jeśli jest to strona, należy podać pełną ścieżkę do niej, tak jak w pasku adresu przeglądarki. Jeśli jest to katalog, ścieżka musi kończyć się ukośnikiem (/). Obsługiwany jest znak wieloznaczny * w celu wskazania przedrostka, przyrostka ścieżki lub całej ścieżki.
  • Mapa witryny: Dyrektywa opcjonalna; w pliku może znajdować się kilka dyrektyw lub żadna z nich. Wskazuje lokalizację mapy witryny używanej w tej witrynie. Adres URL musi być kompletny. Google nie przetwarza ani nie sprawdza odmian adresów URL zawierających prefiksy http i https lub z elementem www lub bez niego. Mapy witryn powiedz Google, jaką treść potrzebować skan i jak odróżnić go od treści, które Móc Lub jest to zabronione skandować. Przykład: Mapa witryny: https://example.com/sitemap.xml Mapa witryny: http://www.example.com/sitemap.xml

Inne zasady są ignorowane.

Inny przykład

Plik robots.txt składa się z grup. Każdy z nich zaczyna się od linii User-agent, która definiuje robota, który musi przestrzegać reguł. Poniżej znajduje się przykład pliku z dwiema grupami i komentarzami wyjaśniającymi do obu.

# Zablokuj dostęp Googlebota do example.com/katalog1/... i przykład.com/katalog2/... # ale zezwól na dostęp do katalogu2/podkatalog1/... # Dostęp do wszystkich pozostałych katalogów jest domyślnie dozwolony. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Zezwól: /directory2/subdirectory1/ # Zablokuj dostęp do całej witryny innej wyszukiwarce. Klient użytkownika: inny robot. Zabroń: /

Pełna składnia pliku robots.txt

Pełną składnię opisano w tym artykule. Zalecamy zapoznanie się z nim, ponieważ istnieje kilka ważnych niuansów w składni pliku robots.txt.

Przydatne zasady

Oto kilka typowych reguł dotyczących pliku robots.txt:

Reguła Przykład
Zakaz indeksowania całej witryny. Należy pamiętać, że w niektórych przypadkach adresy URL witryn mogą znajdować się w indeksie, nawet jeśli nie zostały przeszukane. Należy pamiętać, że ta zasada nie dotyczy robotów AdsBot, które należy określić osobno. Klient użytkownika: * Nie zezwalaj: /
Aby zapobiec skanowaniu katalogu i całej jego zawartości, umieść ukośnik po nazwie katalogu. Nie używaj pliku robots.txt do celów ochronnych informacje poufne! Do tych celów należy używać uwierzytelniania. Adresy URL, których przeszukiwanie nie jest możliwe przez plik robots.txt, można indeksować, a zawartość pliku robots.txt może przeglądać każdy użytkownik i w ten sposób ujawniać lokalizację plików zawierających poufne informacje. Agent użytkownika: * Disallow: /calendar/ Disallow: /śmieci/
Aby umożliwić przeszukiwanie tylko jednemu przeszukiwaczowi Klient użytkownika: Googlebot-news Zezwól: / Klient użytkownika: * Nie zezwalaj: /
Aby umożliwić indeksowanie wszystkim robotom z wyjątkiem jednego Agent użytkownika: Niepotrzebnybot Zabroń: / Agent użytkownika: * Zezwól: /

Aby zapobiec indeksowaniu określonej strony, określ tę stronę po ukośniku.

Klient użytkownika: * Nie zezwalaj: /private_file.html

Aby ukryć określony obraz przed robotem Grafiki Google

Klient użytkownika: Googlebot-Image Disallow: /images/dogs.jpg

Aby ukryć wszystkie obrazy z Twojej witryny przed robotem Grafiki Google

Klient użytkownika: Googlebot-Image Disallow: /

Aby zapobiec skanowaniu wszystkich plików określonego typu(W w tym przypadku GIF)

Klient użytkownika: Googlebot Disallow: /*.gif$

Aby zablokować określone strony w Twojej witrynie, ale nadal wyświetlać na nich reklamy AdSense, użyj reguły Nie zezwalaj dla wszystkich robotów z wyjątkiem Mediapartners-Google. W rezultacie robot ten będzie mógł uzyskać dostęp do stron usuniętych z wyników wyszukiwania w celu wybrania reklam do wyświetlenia konkretnemu użytkownikowi.

Agent użytkownika: * Nie zezwalaj: / Agent użytkownika: Mediapartners-Google Zezwalaj: /
Aby określić adres URL kończący się na pewien fragment , użyj symbolu $. Na przykład w przypadku adresów URL kończących się na .xls użyj następującego kodu: Klient użytkownika: Googlebot Disallow: /*.xls$

Czy te informacje były przydatne?

Jak można ulepszyć ten artykuł?

© 2024 ermake.ru - O naprawie komputerów PC - Portal informacyjny