Jak nakonfigurovat robot txt. Doporučení pro nastavení souboru txt robots

Domov / Operační systémy

Robots.txt je textový soubor, který obsahuje parametry indexování stránek pro roboty vyhledávačů.

Jak nastavit soubor robots.txt

V textovém editoru vytvořte soubor s názvem robots.txt a vyplňte jej podle níže uvedených pokynů.

Zkontrolujte soubor ve službě Yandex.Webmaster (analýza Robots.txt v nabídce).

Nahrajte soubor do kořenového adresáře vašeho webu.

Direktiva User-agent

YandexMedia - indexuje multimediální data.

Pokud existují direktivy pro konkrétního robota, direktivy User-agent: Yahoo a User-agent: * se nepoužívají.

User-agent: YandexBot # bude používán pouze hlavním indexovacím robotem Disallow: /*id= User-agent: Yandex # bude používán všemi roboty Yandex Disallow: /*sid= # kromě hlavního indexovacího robota User-agent : * # nebude použit roboty Yandex Disallow: /cgi-bin

Direktivy Disallow a Allow

Chcete-li robotovi zakázat přístup na váš web nebo jeho určité části, použijte direktivu Disallow.

User-agent: YandexDisallow: / # blokuje přístup k celému webu User-agent: YandexDisallow: /cgi-bin # blokuje přístup na stránky # začínající "/cgi-bin"

Podle standardu byste měli před každou direktivu User-agent vložit prázdný řádek.

Znak # vytváří komentář. Vše, co následuje za tímto znakem, až do konce prvního řádku, je ignorováno.

Pomocí direktivy Allow povolíte robotovi přístup ke konkrétním částem webu nebo k celému webu.

User-agent: Yandex Allow: /cgi-bin Disallow: / # zakazuje stahování čehokoli kromě stránek # začínajících na "/cgi-bin"

Poznámka. Mezi direktivami User-agent , Disallow a Allow nejsou povoleny prázdné konce řádků.

Kombinace direktiv

Direktivy Allow a Disallow z odpovídajícího bloku User-agent jsou seřazeny podle délky předpony URL (od nejkratší po nejdelší) a aplikovány v daném pořadí. Pokud určité stránce webu odpovídá několik direktiv, robot vybere poslední v seřazeném seznamu. Tímto způsobem pořadí direktiv v souboru robots.txt neovlivní způsob, jakým je robot používá.

# Source robots.txt: User-agent: Yandex Povolit: /catalog Disallow: / # Sorted robots.txt: User-agent: Yandex Disallow: / Allow: /catalog # povoluje pouze stahování stránek # začínajících na "/catalog" # Zdroj robots.txt: User-agent: Yandex Povolit: /Povolit: /catalog/auto Disallow: /catalog # Sorted robots.txt: User-agent: Yandex Povolit: / Disallow: /catalog Povolit: /catalog/auto # zákazy stahování stránek začínající na "/catalog", # ale umožňuje stahování stránek začínajících "/catalog/auto".

Direktivy Allow a Disallow bez parametrů

Pokud direktivy neobsahují parametry, robot zpracuje data následovně:

User-agent: Yandex Disallow: # stejné jako Allow: / User-agent: Yandex Allow: # robot nebere v úvahu

Použití speciálních znaků * a $

Při zadávání cest pro direktivy Allow a Disallow můžete použít speciální znaky * a $ k nastavení regulárních výrazů. Znak * označuje libovolnou sekvenci znaků (nebo žádnou). Příklady:

User-agent: Yandex Disallow: /cgi-bin/*.aspx # zákazy "/cgi-bin/example.aspx" # a "/cgi-bin/private/test.aspx" Disallow: /*private # zakazuje obojí " /private", # a "/cgi-bin/private"

Znak $

Ve výchozím nastavení je znak * připojen na konec každého pravidla popsaného v souboru robots.txt. Příklad:

User-agent: Yandex Disallow: /cgi-bin* # blokuje přístup na stránky # začínající "/cgi-bin"Disallow: /cgi-bin # totéž

Chcete-li zrušit * na konci pravidla, použijte znak $, například:

User-agent: Yandex Disallow: /example$ # zakazuje "/example", #, ale povoluje "/example.html" User-agent: Yandex Disallow: /example # zakazuje jak "/example", # a "/example.html" " $ znak" nezakazuje * na konci, to znamená: User-agent: Yandex Disallow: /example$ # zakazuje pouze "/example" Disallow: /example*$ # přesně to samé jako "Disallow: /example" # zakazuje jak /example.html, tak /example

Direktiva Sitemap

Pokud k popisu struktury webu používáte soubor Sitemap, uveďte cestu k souboru jako parametr direktivy Sitemap (pokud máte více souborů, uveďte všechny cesty).

User-agent: Yandex Allow: / sitemap: https://example.com/site_structure/my_sitemaps1.xml sitemap: https://example.com/site_structure/my_sitemaps2.xml

Direktiva je průsečíková, což znamená, že ji robot používá bez ohledu na jeho umístění v robots.txt .

Robot si pamatuje cestu k vašemu souboru, zpracuje vaše data a výsledky použije při další návštěvě vašeho webu.

Direktiva Crawl-delay

Pokud je server přetížený a není možné zpracovat požadavky na stahování, použijte direktivu Crawl-delay Můžete zadat minimální interval (v sekundách), po který bude vyhledávací robot čekat po stažení jedné stránky, než začne stahovat další.

Chcete-li zachovat kompatibilitu s roboty, kteří se mohou při zpracování robots.txt odchylovat od standardu, přidejte direktivu Crawl-delay do skupiny, která začíná položkou User-Agent hned za direktivy Disallow a Allow.

Vyhledávací robot Yandex podporuje zlomkové hodnoty pro Crawl-Delay, například "0,5". To neznamená, že vyhledávací robot bude přistupovat na váš web každou půl sekundu, ale může to urychlit zpracování webu.

User-agent: Yandex Crawl-delay: 2 # nastavuje 2sekundový časový limit User-agent: * Disallow: /search Crawl-delay: 4.5 # nastavuje 4.5sekundový časový limit

Směrnice Clean-param

Pokud adresy vašich stránek obsahují dynamické parametry, které neovlivňují obsah (například identifikátory relací, uživatelů, referrerů atd.), můžete je popsat pomocí direktivy Clean-param.

Robot Yandex používá tyto informace, aby se vyhnul opětovnému načítání duplicitních informací. To zlepšuje efektivitu robota a snižuje zatížení serveru.

Váš web obsahuje například následující stránky:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Parametr ref se používá pouze ke sledování, ze kterého zdroje byl požadavek odeslán. Nemění to obsah stránky Všechny tři adresy URL zobrazí stejnou stránku s knihou book_id=123.

User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

robot Yandex spojí všechny adresy stránek do jedné:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Pokud je na webu k dispozici stránka bez parametrů:

www.example.com/nejaky_adresar/get_book.pl?book_id=123

všechny ostatní adresy URL jsou jím nahrazeny poté, co je robot indexuje. Jiné stránky vašeho webu budou procházeny častěji, protože nebude potřeba stránky aktualizovat:

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Syntaxe směrnice

Clean-param: p0[&p1&p2&..&pn]

V prvním poli uveďte parametry, které je třeba ignorovat, oddělené znakem &. Ve druhém poli uveďte předponu cesty pro stránky, na které se má pravidlo vztahovat.

Předpona může obsahovat regulární výraz ve formátu podobném tomu, který je použit v souboru robots.txt, ale s určitými omezeními: můžete použít pouze znaky A-Za-z0-9.-/*_ . Znak * je však interpretován stejným způsobem jako v souboru robots.txt . A * je vždy implicitně připojeno na konec prefixu. Například:

Clean-param: s /forum/showthread.php

znamená, že parametr s je ignorován pro všechny adresy URL, které začínají /forum/showthread.php . Druhé pole je nepovinné a v tomto případě bude pravidlo platit pro všechny stránky na webu. Rozlišuje malá a velká písmena. Maximální délka pravidla je 500 znaků. Například:

Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash

Další příklady

#pro adresy jako:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243 bude uživatel obsahovat následující.txt: #robots.txt agent: Yandex Disallow: Clean-param: s /forum/showthread.php #pro adresy jako:www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php?page= 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt bude obsahovat následující: User-agent: Yandex Disallow: Clean-param: sid /index.php #pokud existuje několik těchto parametrů:www.example1.com/forum_old/showthread.php ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt bude obsahovat následující: User-agent: Yandex Disallow /Clean-refum:s. */showthread.php #pokud je parametr použit ve více skriptech:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e71c44172317a1 #41772317a1 robots.txt bude obsahovat následující: User-agent: Yandex Disallow: Clean-param: s /forum/index.php Clean-param: s /forum/showthread.php

Použití znaků azbuky

Použití azbuky není povoleno v souboru robots.txt a záhlaví HTTP serveru.

Pro názvy domén použijte Punycode . Pro adresy stránek použijte stejné kódování, jaké se používá pro aktuální strukturu webu.

Příklad souboru robots.txt:

#Nesprávně: User-agent: Yandex Disallow: / cart Sitemap: site.рф/sitemap.xml #Správně: User-agent: Yandex Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 Sitemap: http://xn--80aswg.xn--p1ai/sitemap.xml

Další informace

Robot Yandex podporuje pouze direktivy robots.txt uvedené na této stránce. Výše popsaná pravidla pro zpracování souborů představují rozšíření základního standardu. Ostatní roboti mohou obsah souboru robots.txt interpretovat jiným způsobem.

Výsledky při použití rozšířeného formátu robots.txt se mohou lišit od výsledků, které používají základní standard, zejména:

User-agent: Yandex Allow: / Disallow: /# bez přípon vše bylo zakázáno, protože "Allow: /" bylo ignorováno, # s podporou rozšíření, vše je povoleno User-agent: Yandex Disallow: /private*html # bez přípon, " /private*html" bylo zakázáno, # s podporovanými rozšířeními, "/private*html", # "/private/test.html", "/private/html/test.aspx" a tak dále. agent: Yandex Disallow: /private$ # bez podporovaných rozšíření, "/private$" a "/private$test" atd. byly zakázány, # s podporovanými rozšířeními, zakázáno je pouze "/private" User-agent: * Disallow : / User-agent: Yandex Allow: / # bez podporovaných rozšíření, kvůli chybějícímu zalomení řádku by # "User-agent: Yandex" byl ignorován # výsledkem by bylo "Disallow: /", ale robot Yandex # analyzuje řetězce založené na podřetězci "User-agent:". # V tomto případě je výsledek pro robota Yandex "Povolit: /" User-agent: * Disallow: / # comment1... # comment2... # comment3... User-agent: Yandex Allow: / # same jako v předchozím příkladu (viz výše)

Příklady použití rozšířeného formátu robots.txt:

User-agent: Yandex Allow: /archive Disallow: / # povolí vše, co obsahuje "/archive"; zbytek je zakázán Uživatelský agent: Yandex Povolit: /zastaralé/private/*.html$ # povoluje soubory HTML # v cestě "/zastaralé/private/..." Zakázat: /*.php$ # zakazuje všechny "* .php" na siteDisallow: /*/private/ # zakazuje všechny podcesty obsahující # "/private/", ale výše Povolit neguje # část zákazu Disallow: /*/old/*.zip$ # zakazuje všechny "*. zip" obsahující # "/old/" v cestě User-agent: Yandex Disallow: /add.php?*user= # zakazuje všechny "add.php?" skripty s možností "uživatel".

Při vytváření souboru robots.txt byste měli mít na paměti, že robot klade rozumné omezení na jeho velikost. Pokud velikost souboru přesáhne 32 KB, robot předpokládá, že umožňuje vše, což znamená, že je interpretován stejným způsobem jako.

Správné nastavení souboru robots.txt odstraní možné problémy, vznikající při indexování.

Vlastník webu má zejména možnost omezit indexování služeb a osobních sekcí zdroje. Jak vytvořit soubor a nakonfigurovat jej pro různé vyhledávače, stejně jako populární CMS - budeme hovořit v této publikaci.

K čemu je soubor robots.txt?

Jak asi tušíte, tento soubor obsahuje pokyny určené pro vyhledávací roboty. Musí být umístěn v kořenovém adresáři, takže roboti začnou indexovat stránku přečtením podmínek stanovených v souboru robots.txt.

Soubor tedy vyhledávacím robotům ukazuje, které adresáře webu jsou povoleny pro indexování a které tomuto procesu nepodléhají.

Vzhledem k tomu, že přítomnost souboru neovlivňuje proces hodnocení, mnoho webů neobsahuje soubor robots.txt. Ale to opravdu není správnou cestou. Podívejme se na výhody, které zdroji poskytuje soubor robots.txt.

Můžete zakázat indexování zdroje jako celku nebo jeho části a omezit rozsah vyhledávacích robotů, kteří budou mít právo provádět indexování. Před tímto procesem můžete zdroj zcela ochránit (například při vytváření nebo rekonstrukci webu).

Kromě toho soubor robots omezuje přístup ke zdroji všem druhům spamových robotů, jejichž účelem je skenovat web na přítomnost e-mailové adresy, který bude následně použit k rozesílání spamu. Nezastavujme se nad tím, k čemu by to mohlo vést – a to je pochopitelné.

Před indexováním můžete skrýt sekce webu, které nejsou určeny pro vyhledávače, ale pro určitý okruh uživatelů, sekce obsahující soukromé a další podobné informace.

Jak vytvořit správný soubor robots.txt

Správné roboty lze snadno napsat ručně, aniž byste se uchýlili k pomoci různých konstruktérů. Proces spočívá v zapsání potřebných direktiv do běžného souboru poznámkového bloku, který je pak třeba uložit pod názvem „robots“ a nahrát do kořenového adresáře vašeho vlastního zdroje. Jeden takový soubor je potřeba pro jeden web. Může obsahovat pokyny pro vyhledávací roboty všech potřebných vyhledávačů. To znamená, že není nutné vytvářet samostatný soubor pro každý vyhledávač.

Co by mělo být zapsáno do souboru? Je povinné použít dvě direktivy: User-agent a Disallow. První určuje, kterému robotovi je tato zpráva adresována, druhá ukazuje, která stránka nebo adresář zdrojů je zakázáno indexovat.

Chcete-li nastavit stejná pravidla pro všechny roboty, můžete místo jména v direktivě User-agent použít symbol hvězdičky.
Soubor robots.txt bude v tomto případě vypadat takto:

Mimochodem, vývojáři Googlu webmasterům opakovaně připomínali, že velikost souboru robots.txt by neměla přesáhnout 500 KB. To jistě povede k chybám při indexování. Pokud soubor vytváříte ručně, pak je „dosáhnout“ takové velikosti samozřejmě nereálné. Některé CMS, které automaticky generují obsah robots.txt, jej však mohou výrazně ztížit.

Snadno vytvořte soubor pro jakýkoli vyhledávač

Pokud se bojíte chyb při psaní souboru (nebo jste na to prostě příliš líní), můžete vytvořením potřebných direktiv svěřit konstruktoru. Je to jednoduché jako dvakrát dva, ale i tak si dáme krátké vysvětlení, jak s ním pracovat.

První pole obsahuje adresu zdroje. Teprve poté bude mít uživatel možnost vybrat vyhledávač, pro který jsou tato pravidla nastavena (můžete vybrat několik vyhledávačů postupně). Dále musíte určit složky a soubory, ke kterým bude zakázán přístup, zadat adresu zrcadla webu a uvést umístění mapy prostředků.

Při vyplňování polí se do spodního pole zadají požadované adresáře. Vše, co musíte udělat, je zkopírovat do txt souboru a dát mu název robots.

Jak zkontrolovat účinnost vašeho souboru robots.txt

Chcete-li analyzovat akci souboru v Yandex, měli byste přejít na odpovídající stránku v sekci Yandex.Webmaster. V dialogovém okně zadejte název webu a klikněte na tlačítko „stáhnout“.

Systém analyzuje soubor robots.txt a označí, zda bude vyhledávací robot procházet stránky, jejichž indexování je zakázáno. Pokud se vyskytnou problémy, direktivy lze upravit a otestovat přímo v dialogovém okně, poté je zkopírovat a vložit do vašeho souboru robots.txt v kořenovém adresáři.

Podobnou službu poskytuje služba Nástroje pro webmastery z vyhledávače Google.

Vytváření robots.txt pro WordPress, Joomla a Ucoz

Různé CMS, které si získaly širokou oblibu v našich otevřených prostorech, nabízejí uživatelům vlastní verze souborů robots.txt (nebo je vůbec nemají). Tyto soubory jsou často buď příliš univerzální a neberou v úvahu vlastnosti zdroje uživatele, nebo mají řadu významných nedostatků.

Můžete v nich zkusit provést změny ručně (což není příliš efektivní, pokud vám chybí znalosti), nebo můžete využít zkušeností povolanějších kolegů. Jak se říká, všechno už bylo hotové před námi. Soubor robots.txt pro WordPress může vypadat například takto:

Řádek www.site.ru by měl být samozřejmě nahrazen adresou webové stránky uživatele.

Zakázat indexování pro následující roboty:

Pro všechny
Yandex
Google
Mail.ru
Rammler
Bing
Yahoo

Hlavní doména webu:

Časový limit mezi přechody robota mezi stránkami:
1 sekunda 5 sekund 10 sekund 60 sekund

Pojďme na mapu webu, sitemap.xml:

Ready robots.txt:

Uložte data do souboru „robots.txt“ a zkopírujte je do kořenové složky webu.

K čemu slouží nástroj „Robots.txt Generator“?

Servisní web vám nabízí nástroj „Robots.txt Generator“, pomocí kterého můžete vytvořit soubor robots.txt online během několika sekund a také nastavit zákaz indexování stránek webu některými vyhledávači.

Co je robots.txt

Robots.txt je soubor, který se nachází v kořenovém adresáři webu a obsahuje pokyny pro vyhledávací roboty. Při návštěvě jakéhokoli zdroje se s ním roboti začnou seznamovat ze souboru robots.txt - jakýsi „návod k použití“. Vydavatel uvádí tento soubor jak robot potřebuje komunikovat se zdrojem. Může obsahovat například zákaz indexování určitých stránek nebo doporučení zachovat časový interval mezi ukládáním dokumentů z webového serveru.

Možnosti nástroje

Správce webu může nastavit zákaz indexování roboty vyhledávačů Yandex, Google, Mail.ru, Rambler, Bing nebo Yahoo!, stejně jako nastavit časový limit mezi přechody vyhledávacího robota na stránkách zdrojů a zakázat indexování vybraných stránek webu. Kromě toho můžete ve speciálním řádku označit pro vyhledávací roboty cestu k mapě webu (sitemap.xml).

Poté, co vyplníte všechna pole nástroje a kliknete na tlačítko „Vytvořit“, systém automaticky vygeneruje soubor pro vyhledávací roboty, který budete muset umístit do kořenové zóny vašeho webu.

Vezměte prosím na vědomí, že soubor robots.txt nelze použít ke skrytí stránky z výsledků vyhledávání, protože na ni mohou odkazovat jiné zdroje a vyhledávací roboti ji budou indexovat tak či onak. Připomínáme, že pro zablokování stránky ve výsledcích vyhledávání použijte speciální značku „noindex“ nebo si nastavte heslo.

Za zmínku také stojí, že pomocí nástroje Robots.txt Generator vytvoříte soubor čistě poradního charakteru. Roboti samozřejmě „poslouchají“ pokyny, které jim webmasteři zanechají v souboru robots.txt, ale někdy je ignorují. Proč se to děje? Protože každý vyhledávací robot má své vlastní nastavení, podle kterého interpretuje přijaté informace ze souboru robots.txt.

Soubor sitemap.xml a správný soubor robots.txt pro daný web jsou dva povinné dokumenty, které přispívají k rychlému a úplnému indexování všech nezbytných stránek webového zdroje vyhledávacími roboty. Správné indexování stránek v Yandex a Google je klíčem k úspěšné propagaci blogu ve vyhledávačích.

Již jsem psal, jak vytvořit mapu webu ve formátu XML a proč je to potřeba. Nyní si povíme, jak vytvořit správný soubor robots.txt pro web WordPress a proč je obecně potřeba. Podrobné informace informace o tomto souboru lze získat od samotných Yandex a Google. Dostanu se k jádru a dotknu se základního nastavení robots.txt pro WordPress pomocí svého souboru jako příkladu.

Proč pro web potřebujete soubor robots.txt?

Standard robots.txt se objevil již v lednu 1994. Při skenování webového zdroje nejprve hledají roboti textový soubor robots.txt, který se nachází v kořenové složce webu nebo blogu. S jeho pomocí můžeme určit určitá pravidla pro roboty různých vyhledávačů, podle kterých budou stránky indexovat.

Správné nastavení souboru robots.txt vám umožní:

vyloučit duplikáty a různé nevyžádané stránky z indexu;
zakázat indexování stránek, souborů a složek, které chceme skrýt;
obecně odmítají indexování některým vyhledávacím robotům (například Yahoo, aby skryli informace o příchozích odkazech před konkurenty);
označte hlavní zrcadlo webu (s www nebo bez www);
zadejte cestu k souboru sitemap sitemap.xml.

Jak vytvořit správný soubor robots.txt pro web

Pro tento účel existují speciální generátory a pluginy, ale je lepší to udělat ručně.

Stačí vytvořit běžný textový soubor s názvem robots.txt pomocí libovolného textového editoru (například Notepad nebo Notepad++) a nahrát jej na váš hosting do kořenové složky vašeho blogu. V tomto souboru musí být zapsány určité směrnice, tzn. pravidla indexování pro roboty Yandex, Google atd.

Pokud jste líní se s tím trápit, tak níže uvedu příklad z mého pohledu správného robots.txt pro WordPress z mého blogu. Můžete jej použít nahrazením názvu domény na třech místech.

Pravidla a směrnice pro vytváření souborů Robots.txt

Pro úspěšné optimalizace pro vyhledávače blog potřebujete znát některá pravidla pro vytváření robots.txt:

Absence popř prázdný soubor robots.txt bude znamenat, že vyhledávače mohou indexovat veškerý obsah webového zdroje.
Soubor robots.txt by se měl otevřít na adrese site.ru/robots.txt a dát robotovi kód odpovědi 200 OK a neměl by být větší než 32 kB. Soubor, který se nepodaří otevřít (například kvůli chybě 404) nebo je větší, bude považován za v pořádku.
Počet direktiv v souboru by neměl přesáhnout 1024. Délka jednoho řádku by neměla přesáhnout 1024 znaků.
Platný soubor robots.txt může obsahovat více příkazů, z nichž každý musí začínat direktivou User-agent a musí obsahovat alespoň jednu direktivu Disallow. Obvykle píší pokyny do souboru robots.txt pro Google a všechny ostatní roboty a samostatně pro Yandex.

Základní pokyny souboru robots.txt:

User-agent – označuje, kterému vyhledávacímu robotu je instrukce určena.

Symbol „*“ znamená, že to platí pro všechny roboty, například:

User-agent: *

Pokud potřebujeme vytvořit pravidlo v robots.txt pro Yandex, napíšeme:

Uživatelský agent: Yandex

Pokud je pro konkrétního robota zadána direktiva, direktiva User-agent: * jím není brána v úvahu.

Disallow a Allow – zakazují a umožňují robotům indexovat zadané stránky. Všechny adresy musí být zadány z kořenového adresáře webu, tzn. počínaje třetím lomítkem. Například:

Zakázat všem robotům indexovat celý web:
User-agent: *
Disallow: /
Yandex má zakázáno indexovat všechny stránky začínající na /wp-admin:
Uživatelský agent: Yandex
Disallow: /wp-admin
Prázdná direktiva Disallow umožňuje vše indexovat a je podobná jako Allow. Například povoluji Yandexu indexovat celý web:
Uživatelský agent: Yandex
Disallow:
A naopak, zakazuji všem vyhledávacím robotům indexovat všechny stránky:
User-agent: *
Povolit:
Direktivy Allow a Disallow ze stejného bloku User-agent jsou seřazeny podle délky předpony URL a prováděny postupně. Pokud je pro jednu stránku webu vhodných několik direktiv, provede se poslední v seznamu. Nyní nezáleží na pořadí, ve kterém jsou zapsány, když robot používá příkazy. Pokud mají direktivy předpony stejné délky, nejprve se provede Allow. Tato pravidla vstoupila v platnost dne 8. března 2012. Například umožňuje indexovat pouze stránky začínající na /wp-includes:
Uživatelský agent: Yandex
Disallow: /
Povolit: /wp-includes

Sitemap – Určuje adresu XML Sitemap. Jeden web může mít několik direktiv Sitemap, které lze vnořit. Všechny adresy souborů Sitemap musí být uvedeny v souboru robots.txt, aby se urychlilo indexování stránek:

Soubor Sitemap: http://site/sitemap.xml.gz
Soubor Sitemap: http://site/sitemap.xml

Host – říká zrcadlovému robotovi, které zrcadlo webu má považovat za hlavní.

Pokud je stránka přístupná na více adresách (např. s www a bez www), pak se vytvoří úplné duplicitní stránky, které může filtr zachytit. V tomto případě také nemusí být indexována hlavní stránka, ale naopak hlavní stránka bude z indexu vyloučena vyhledávač. Abyste tomu zabránili, použijte direktivu Host, která je v souboru robots.txt určena pouze pro Yandex a může být pouze jedna. Je napsáno za Disallow a Allow a vypadá takto:

Hostitel: webové stránky

Crawl-delay – nastavuje prodlevu mezi stahováním stránek v sekundách. Používá se, pokud je velká zátěž a server nemá čas zpracovávat požadavky. Na mladých webech je lepší direktivu Crawl-delay nepoužívat. Píše se to takto:

Uživatelský agent: Yandex
Zpoždění procházení: 4

Clean-param – podporuje pouze Yandex a používá se k odstranění duplicitních stránek s proměnnými a jejich sloučení do jedné. Robot Yandex tedy nebude stahovat podobné stránky mnohokrát, například ty, které jsou spojené s odkazy na doporučení. Tuto direktivu jsem ještě nepoužil, ale v nápovědě k robots.txt pro Yandex klikněte na odkaz na začátku článku, můžete si tuto direktivu přečíst podrobně.

Speciální znaky * a $ se v souboru robots.txt používají k označení cest direktiv Disallow a Allow:

Speciální znak „*“ znamená libovolnou posloupnost znaků. Například Disallow: /*?* znamená zákaz na všech stránkách, kde se v adrese vyskytuje „?“, bez ohledu na to, jaké znaky následují před a za tímto znakem. Ve výchozím nastavení je na konec každého pravidla přidán speciální znak „*“, i když není konkrétně specifikován.
Symbol „$“ ruší „*“ na konci pravidla a znamená striktní shodu. Například direktiva Disallow: /*?$ zakáže indexování stránek končících znakem „?“.

Příklad robots.txt pro WordPress

Zde je příklad mého souboru robots.txt pro blog na enginu WordPress:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Abyste se nepletli s vytvořením správného souboru robots.txt pro WordPress, můžete použít tento soubor. S indexováním nejsou žádné problémy. Mám skript ochrany proti kopírování, takže bude pohodlnější stáhnout si hotový robots.txt a nahrát ho na svůj hosting. Jen nezapomeňte nahradit název mého webu vaším v direktivách Host a Sitemap.

Užitečné doplňky pro správnou konfiguraci souboru robots.txt pro WordPress

Pokud jsou na vašem blogu WordPress nainstalovány stromové komentáře, vytvářejí duplicitní stránky ve tvaru ?replytocom= . V robots.txt jsou takové stránky uzavřeny direktivou Disallow: /*?*. Ale to není řešení a je lepší odstranit zákazy a bojovat s respondtocom jiným způsobem. Co, .

Aktuální soubor robots.txt od července 2014 tedy vypadá takto:

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Hostitel: site.ru User-agent: Googlebot-Image Allow: /wp-content /uploads/ User-agent: YandexImages Povolit: /wp-content/uploads/ Sitemap: http://site.ru/sitemap.xml

Dále stanoví pravidla pro roboty pro indexování obrázků.

User-agent: Mediapartners-Google
Disallow:

Pokud plánujete propagovat stránky kategorií nebo značek, měli byste je otevřít robotům. Například na webových stránkách blogu nejsou kategorie vyloučeny z indexování, protože publikují pouze malá oznámení článků, což je z hlediska duplikování obsahu zcela nepodstatné. A pokud použijete zobrazení citátů v blogovém zdroji, které jsou plné jedinečných oznámení, pak k duplicitě vůbec nedojde.

Pokud výše uvedený plugin nepoužíváte, můžete v souboru robots.txt zadat zákaz indexování značek, kategorií a archivů. Například přidáním následujících řádků:

Disallow: /autor/
Disallow: /tag
Disallow: /category/*/*
Disallow: /20*

Nezapomeňte zkontrolovat soubor robots.txt na panelu Yandex.Webmaster a poté jej znovu nahrát na svůj hosting.

Pokud máte nějaké doplňky ke konfiguraci robots.txt, napište o tom do komentářů. Nyní se podívejte na video o tom, co to je a jak vytvořit správný soubor robots.txt pro web, jak zakázat indexování v souboru robots.txt a opravit chyby.

Soubor robots.txt se nachází v kořenovém adresáři vašeho webu. Například na webu www.example.com bude adresa souboru robots.txt vypadat jako www.example.com/robots.txt. Soubor robots.txt je prostý textový soubor, který se řídí standardem vyloučení robotů a obsahuje jedno nebo více pravidel, z nichž každé zakazuje nebo umožňuje konkrétnímu prohledávači přístup k určité cestě na webu.

Zde je příklad jednoduchý soubor robots.txt se dvěma pravidly. Níže jsou vysvětlení.

# Skupina 1 User-agent: Googlebot Disallow: /nogooglebot/ # Skupina 2 User-agent: * Povolit: / Sitemap: http://www.example.com/sitemap.xml

Vysvětlivky

Uživatelský agent zvaný Googlebot by neměl procházet adresář http://example.com/nogooglebot/ a jeho podadresáře.
Všichni ostatní uživatelští agenti mají přístup k celému webu (lze vynechat, výsledek bude stejný, protože plný přístup je standardně udělen).
soubor Sitemap tato stránka se nachází na adrese http://www.example.com/sitemap.xml.

Níže uvádíme několik tipů pro práci se soubory robots.txt. Doporučujeme, abyste si prostudovali úplnou syntaxi těchto souborů, protože pravidla syntaxe použitá k jejich vytvoření nejsou zřejmá a musíte jim porozumět.

Formát a rozložení

Soubor robots.txt můžete vytvořit téměř v jakémkoli textovém editoru, který podporuje kódování UTF-8. Nepoužívejte textové procesory, protože často ukládají soubory v proprietárním formátu a přidávají neplatné znaky, jako jsou složené uvozovky, které vyhledávací roboty nerozpoznají.

Při vytváření a testování souborů robots.txt používejte testovací nástroj. Umožňuje vám analyzovat syntaxi souboru a zjistit, jak bude na vašem webu fungovat.

Pravidla týkající se formátu a umístění souboru

Soubor by se měl jmenovat robots.txt.
Na webu by měl být pouze jeden takový soubor.
Musí být umístěn soubor robots.txt kořenový adresář místo. Chcete-li například ovládat procházení všech stránek na webu http://www.example.com/, měl by být soubor robots.txt umístěn na adrese http://www.example.com/robots.txt. Neměl by být v podadresáři(například na adrese http://example.com/pages/robots.txt). Máte-li potíže s přístupem do kořenového adresáře, kontaktujte svého poskytovatele hostingu. Pokud nemáte přístup do kořenového adresáře webu, použijte alternativní metoda zámky, jako jsou meta tagy.
Soubor robots.txt lze přidat k adresám pomocí subdomény(například http:// webové stránky.example.com/robots.txt) nebo nestandardní porty (například http://example.com: 8181 /robots.txt).
Jakýkoli text za symbolem # je považován za komentář.

Syntax

Soubor robots.txt musí být textový soubor kódovaný v UTF-8 (který zahrnuje kódy znaků ASCII). Jiné znakové sady nelze použít.
Soubor robots.txt se skládá z skupiny.
Každý skupina může obsahovat několik pravidla, jeden na řádek. Tato pravidla se také nazývají směrnice.
Skupina obsahuje následující informace:
- Ke kterému uživatelský agent Platí skupinové směrnice.
- mít přístup.
- Ke kterým adresářům nebo souborům tento agent přistupuje? žádný přístup.
Skupinové instrukce se čtou shora dolů. Robot se bude řídit pouze pravidly jedné skupiny s uživatelským agentem, který mu nejvíce odpovídá.
Ve výchozím nastavení se předpokládáže pokud přístup ke stránce nebo adresáři není blokován pravidlem Disallow:, může jej uživatelský agent zpracovat.
Pravidla rozlišují velká a malá písmena. Pravidlo Disallow: /file.asp se tedy vztahuje na adresu URL http://www.example.com/soubor.asp, ale ne na http://www.example.com/Soubor.asp.

Direktivy používané v souborech robots.txt

User-agent: Povinná směrnice, takových může být ve skupině několik. Určuje, který vyhledávač robot musí platit pravidla. Každá skupina začíná tímto řádkem. Většinu uživatelských agentů souvisejících s Googleboty lze nalézt ve speciálním seznamu a v internetové databázi robotů. Zástupný znak * je podporován pro označení předpony, přípony cesty nebo celé cesty. K zablokování přístupu všem prohledávačům použijte znak *, jak je znázorněno v příkladu níže ( kromě robotů AdsBot, která musí být uvedena samostatně). Doporučujeme, abyste se seznámili se seznamem robotů Google. Příklady:# Příklad 1. Blokování přístupu pouze pro Googlebot User-agent: Googlebot Disallow: / # Příklad 2. Blokování přístupu pro Googlebot a roboty AdsBot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Příklad 3. Blokování přístupu k všichni roboti , s výjimkou User-agent AdsBot: * Disallow: /
Disallow: . Odkazuje na adresář nebo stránku vzhledem ke kořenové doméně, kterou nemůže procházet výše definovaný uživatelský agent. Pokud se jedná o stránku, musí být uvedena úplná cesta k ní, jako v adresním řádku prohlížeče. Pokud se jedná o adresář, cesta musí končit lomítkem (/). Zástupný znak * je podporován pro označení předpony, přípony cesty nebo celé cesty.
Povolit: V každé skupině musí být alespoň jedna direktiva Disallow: nebo Allow:. Odkazuje na adresář nebo stránku vzhledem ke kořenové doméně, kterou může procházet výše definovaný uživatelský agent. Používá se k přepsání direktivy Disallow a povolení skenování podadresáře nebo stránky v adresáři, který je pro skenování uzavřen. Pokud se jedná o stránku, musí být uvedena úplná cesta k ní, jako v adresním řádku prohlížeče. Pokud se jedná o adresář, cesta musí končit lomítkem (/). Zástupný znak * je podporován pro označení předpony, přípony cesty nebo celé cesty.
Mapa webu: Nepovinná směrnice může být v souboru několik nebo žádná. Označuje umístění souboru Sitemap použitého na tomto webu. Adresa URL musí být úplná. Google nezpracovává ani neověřuje varianty adres URL s předponami http a https nebo s prvkem www nebo bez něj. Soubory Sitemap sdělte Googlu, jaký obsah potřeba skenovat a jak jej odlišit od obsahu, který Může nebo je to zakázáno skenovat. Příklad: Soubor Sitemap: https://example.com/sitemap.xml Soubor Sitemap: http://www.example.com/sitemap.xml

Ostatní pravidla jsou ignorována.

Další příklad

Soubor robots.txt se skládá ze skupin. Každý z nich začíná linií User-agent, která definuje robota, který musí dodržovat pravidla. Níže je uveden příklad souboru se dvěma skupinami a vysvětlujícími komentáři pro obě skupiny.

# Zablokujte přístup Googlebotu k example.com/adresář1/... a example.com/adresář2/... # ale povolte přístup k adresáři2/podadresář1/... # Přístup do všech ostatních adresářů je standardně povolen. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Blokovat přístup k celému webu jinému vyhledávači. User-agent: othercrawler Disallow: /

Úplná syntaxe souboru robots.txt

Úplná syntaxe je popsána v tomto článku. Doporučujeme, abyste se s ním seznámili, protože syntaxe souboru robots.txt obsahuje některé důležité nuance.

Užitečná pravidla

Zde jsou některá běžná pravidla pro soubor robots.txt:

Pravidlo	Příklad
Zákaz procházení celého webu. Upozorňujeme, že v některých případech mohou být adresy URL stránek přítomny v indexu, i když nebyly procházeny. Upozorňujeme, že toto pravidlo se nevztahuje na roboty AdsBot, které je nutné specifikovat samostatně.	User-agent: * Disallow: /
Aby se zabránilo skenování adresáře a celého jeho obsahu, umístěte za název adresáře lomítko. K ochraně nepoužívejte soubor robots.txt důvěrné informace! Pro tyto účely by měla být použita autentizace. Adresy URL, které soubor robots.txt nesmí procházet, lze indexovat a obsah souboru robots.txt může zobrazit každý uživatel a odhalit tak umístění souborů s citlivými informacemi.	User-agent: * Disallow: /calendar/ Disallow: /junk/
Povolit procházení pouze jedním prohledávačem	User-agent: Googlebot-news Povolit: / User-agent: * Disallow: /
Povolit procházení všem prohledávačům kromě jednoho	User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Chcete-li zabránit procházení konkrétní stránky, uveďte tuto stránku za lomítkem.	User-agent: * Disallow: /private_file.html
Chcete-li skrýt konkrétní obrázek před robotem Obrázků Google	User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Chcete-li skrýt všechny obrázky z vašeho webu před robotem Obrázků Google	User-agent: Googlebot-Image Disallow: /
Aby se zabránilo kontrole všech souborů určitého typu(PROTI v tomto případě GIF)	User-agent: Googlebot Disallow: /*.gif$
Chcete-li zablokovat určité stránky na vašem webu, ale stále na nich zobrazovat reklamy AdSense, použijte pravidlo Disallow pro všechny roboty kromě Mediapartners-Google. Výsledkem je, že tento robot bude moci přistupovat na stránky odstraněné z výsledků vyhledávání, aby mohl vybrat reklamy, které se zobrazí konkrétnímu uživateli.	User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Chcete-li zadat adresu URL, která končí na určitý fragment , použijte symbol $. Například pro adresy URL končící na .xls použijte následující kód:	User-agent: Googlebot Disallow: /*.xls$

Byla tato informace užitečná?

Jak lze tento článek vylepšit?