Vytváříme robot txt pro Bitrix. Highload blog o programování a podnikání na internetu

Domov / Pevné disky

Mnoho lidí čelí problémům s nesprávným indexováním jejich stránek vyhledávači. V tomto článku vysvětlím, jak vytvořit správný soubor robots.txt pro Bitrix, aby se předešlo chybám v indexování.

Co je robots.txt a k čemu slouží?

Robots.txt je textový soubor, který obsahuje parametry indexování stránek pro roboty vyhledávačů (informace Yandex).
V zásadě je potřeba zablokovat indexování stránek a souborů, které vyhledávače nepotřebují indexovat, a tudíž je přidávat do výsledků vyhledávání.

Obvykle toto technické soubory a stránky, administrační panely, uživatelské účty a duplicitní informace, jako je vyhledávání vašeho webu atd.

Vytvoření základního souboru robots.txt pro Bitrix

Běžná chyba pro začátečníky spočívá v ruční kompilaci tohoto souboru. Není třeba to dělat.
Bitrix již má modul zodpovědný za soubor robots.txt. Lze jej nalézt na stránce "Marketing -> Optimalizace pro vyhledávače-> Nastavení robots.txt" .
Na této stránce je tlačítko pro vytvoření základní sady pravidel pro systém Bitrix. Použijte jej k vytvoření všech standardních pravidel:

Po vygenerování mapy webu bude cesta k ní automaticky přidána do souboru robots.txt.

Poté budete mít dobrý základní soubor pravidel. Poté byste měli postupovat podle doporučení SEO specialisty a zavřít (pomocí tlačítka „Blokovat soubor/složku“) potřebné stránky. Obvykle se jedná o vyhledávací stránky, osobní účty a další.

A nezapomeňte, že nás můžete kontaktovat

Bitrix je jedním z nejběžnějších administračních systémů v ruském segmentu internetu. Vezmeme-li v úvahu skutečnost, že tento CMS se na jedné straně často používá k vytváření internetových obchodů a poměrně nabitých webových stránek a na druhé straně není Bitrix nejrychlejším systémem, kompilace správného souboru robots.txt se stává ještě naléhavější úkol. Pokud vyhledávací robot indexuje pouze to, co je potřeba pro propagaci, pomáhá to odstranit zbytečné zatížení webu. Stejně jako v případě příběhu s jsou chyby téměř v každém článku na internetu. Takové případy uvedu na samém konci článku, aby bylo jasné, proč takové příkazy není třeba psát.

Podrobněji jsem psal o kompilaci robots.txt a smyslu všech jeho direktiv. Níže se nebudu podrobně zabývat významem každého pravidla. Omezím se na krátké okomentování toho, co je k čemu potřeba.

Opravte soubor Robots.txt pro Bitrix

Kód pro Roboty, který je napsán níže, je základní a univerzální pro jakýkoli web na Bitrixu. Zároveň musíte pochopit, že vaše stránky mohou mít své vlastní individuální vlastnosti a tento soubor bude nutné ve vašem konkrétním případě upravit.

User-agent: * # pravidla pro všechny roboty Disallow: /cgi-bin # složka na hostingu Disallow: /bitrix/ # složka s systémové soubory Bitrix Disallow: *bitrix_*= # Bitrix GET požadavky Disallow: /local/ # složka se systémovými soubory Bitrix Disallow: /*index.php$ # duplicitní stránky index.php Disallow: /auth/ # autorizace Disallow: *auth= # autorizace Disallow: /personal/ # osobní účet Disallow: *register= # registrace Disallow: *forgot_password= # zapomenuté heslo Disallow: *change_password= # změna hesla Disallow: *login= # login Disallow: *logout= # logout Disallow: */ hledat / # hledat Disallow: *action= # actions Disallow: *print= # print Disallow: *?new=Y # nová stránka Disallow: *?edit= # edit Disallow: *?preview= # preview Disallow: *backurl= # trackbacks Disallow: *back_url= # trackbacks Disallow: *back_url_admin= # trackbacks Disallow: *captcha # captcha Disallow: */feed # all feeds Disallow: */rss # rss feed Disallow: *?FILTER*= # zde a níže různé oblíbené parametry filtru Disallow: *?ei= Disallow: *?p= Disallow: *?q= Disallow: *?tags= Disallow: *B_ORDER= Disallow: *BRAND= Disallow: *CLEAR_CACHE= Disallow: *ELEMENT_ID= Disallow: *price_from = Disallow: *Price_to = Disallow: *Property_type = Disallow: *Property_width = Disallow: *Property_Height: *PROPERTY_DIA = DISALLOW: *Property_OPENING *Property_Sell_type = Disallow: *Property_main_type = Disallow] *Slast_Property = Disallow: *SLAST_Disallow: : *SECTION_ID= Disallow: *SECTION[*]= Disallow: *SHOWALL= Disallow: *SHOW_ALL= Disallow: *SHOWBY= Disallow: *SORT= Disallow: *SPHRASE_ID= Disallow: *TYPE= Disallow: * utm*= # odkazů with utm tags Disallow: *openstat= # links with openstat tags Disallow: *from= # links with tags from Allow: */upload/ # open the folder with files uploads Allow: /bitrix/*.js # dále otevíráme skripty pro indexování Povolit: /bitrix/*.css Povolit: /local/*.js Povolit: /local/*.css Povolit: /local/*.jpg Povolit: /local/*.jpeg Povolit: / local/*.png Povolit : /local/*.gif # Určete jeden nebo více souborů Sitemap Mapa webu: http://site.ru/sitemap.xml Mapa webu: http://site.ru/sitemap.xml.gz # Určete hlavní zrcadlo webu , jako v příkladu níže (s WWW / bez WWW, pokud HTTPS #, napište protokol, pokud potřebujete specifikovat port, uveďte jej). Příkaz se stal nepovinným. Dříve hostitel rozuměl # Yandex a Mail.RU. Nyní všechny hlavní vyhledávače neberou v úvahu příkaz Host. Hostitel: www.site.ru

  1. Blokovat indexování stránkovacích stránek
    Pravidlo Disallow: *?PAGEN_1= je chyba. Stránkovací stránky musí být indexovány. Ale na takových stránkách se to psát musí.
  2. Zavřete obrázek a stáhněte soubory (DOC, DOCX, XLS, XLSX, PDF, PPT, PPTS atd.)
    Není třeba to dělat. Pokud máte pravidlo Disallow: /upload/, odeberte ho.
  3. Zavřít stránky značek a kategorií
    Pokud má váš web skutečně takovou strukturu, že obsah na těchto stránkách je duplicitní a není v něm žádná zvláštní hodnota, pak je lepší jej zavřít. Propagace zdrojů se však často provádí také prostřednictvím stránek kategorií a označování. V tomto případě můžete ztratit část provozu.
  4. Zaregistrujte zpoždění procházení
    Módní pravidlo. Mělo by se však specifikovat pouze v případě, že je skutečně potřeba omezit návštěvy robotů na vašich stránkách. Pokud je stránka malá a návštěvy nevytvářejí značnou zátěž na serveru, pak omezení času „tak, aby to bylo“, nebude nejrozumnější nápad.

ROBOTI.TXT- Standard výjimky pro roboty – soubor v textovém formátu .txt, který omezuje přístup robotů k obsahu webu. Soubor musí být umístěn v kořenovém adresáři webu (na adrese /robots.txt). Použití standardu je volitelné, ale vyhledávače se řídí pravidly obsaženými v souboru robots.txt. Samotný soubor se skládá ze sady záznamů formuláře

:

kde pole je název pravidla (User-Agent, Disallow, Allow atd.)

Záznamy jsou odděleny jedním nebo více prázdnými řádky (zakončení řádku: znaky CR, CR+LF, LF)

Jak správně nakonfigurovat ROBOTS.TXT?

Tento odstavec obsahuje základní požadavky na nastavení souboru, konkrétní doporučení pro nastavení, příklady pro populární CMS

  • Velikost souboru nesmí přesáhnout 32 kB.
  • Kódování musí být ASCII nebo UTF-8.
  • V správný soubor robots.txt musí obsahovat alespoň jedno pravidlo skládající se z několika direktiv. Každé pravidlo musí obsahovat následující směrnice:
    • pro kterého robota je toto pravidlo určeno (direktiva User-agent)
    • ke kterým zdrojům má tento agent přístup (direktiva Allow) nebo ke kterým zdrojům nemá přístup (Disallow).
  • Každé pravidlo a směrnice musí začínat na novém řádku.
  • Hodnota pravidla Disallow/Allow musí začínat znakem / nebo *.
  • Všechny řádky začínající symbolem # nebo části řádků začínající tímto symbolem jsou považovány za komentáře a agenti je neberou v úvahu.

Minimální obsah správně nakonfigurovaného souboru robots.txt tedy vypadá takto:

User-agent: * #pro všechny agenty Disallow: #nic není povoleno = přístup ke všem souborům je povolen

Jak vytvořit/upravit ROBOTS.TXT?

Soubor můžete vytvořit pomocí libovolného textový editor(např. notepad++). Chcete-li vytvořit nebo upravit soubor robots.txt, obvykle potřebujete přístup k serveru přes FTP/SSH, avšak mnoho CMS/CMF má vestavěné rozhraní pro správu obsahu souboru prostřednictvím administračního panelu („administrátorský panel“). příklad: Bitrix, ShopScript a další.

Proč je na webu potřeba soubor ROBOTS.TXT?

Jak je patrné z definice, robots.txt umožňuje ovládat chování robotů při návštěvě webu, tzn. konfigurovat indexování stránek pomocí vyhledávačů – to dělá tento soubor důležitou součástí SEO optimalizace vašeho webu. Nejdůležitější vlastností robots.txt je zákaz indexování stránek/souborů, které neobsahují užitečné informace. Nebo celý web, což může být nutné například pro testovací verze webu.

Hlavní příklady toho, co je třeba zablokovat před indexováním, budou popsány níže.

Co by mělo být blokováno v indexování?

Za prvé byste měli během procesu vývoje vždy zakázat indexování webů, abyste předešli tomu, že stránky, které nebudou na hotové verzi webu, a stránky s chybějícím/duplicitním/testovacím obsahem budou zahrnuty do indexu před dokončením.

Za druhé, kopie webu vytvořené jako testovací weby pro vývoj by měly být skryty před indexováním.

Za třetí, podívejme se, jaký obsah přímo na webu by měl být zakázán indexovat.

  1. Administrativní část webu, soubory služeb.
  2. Stránky pro přihlášení/registraci uživatelů, ve většině případů - osobní sekce uživatelům (pokud není poskytován veřejný přístup k osobním stránkám).
  3. Stránky košíku a pokladny, prohlížení objednávek.
  4. stránky pro porovnání produktů je možné selektivně otevřít pro indexování, pokud jsou jedinečné. V obecný případ srovnávací tabulky – nespočet stránek s duplicitním obsahem.
  5. Stránky vyhledávání a filtrování lze nechat otevřené pro indexování, pouze pokud ano správné nastavení: samostatné adresy URL, vyplněné jedinečné názvy, meta tagy. Ve většině případů by takové stránky měly být uzavřeny.
  6. Stránky s řazením produktů/záznamů, pokud mají různé adresy.
  7. Stránky se značkami utm a openstat v URL (stejně jako všechny ostatní).

Syntaxe ROBOTS.TXT

Nyní se podíváme na syntaxi souboru robots.txt podrobněji.

Obecná ustanovení:

  • každá směrnice musí začínat na novém řádku;
  • řádek nesmí začínat mezerou;
  • hodnota směrnice musí být na jednom řádku;
  • není třeba uzavírat hodnoty direktivy do uvozovek;
  • standardně se pro všechny hodnoty direktivy na konci píše *, Příklad: User-agent: Yandex Disallow: /cgi-bin* # blokuje přístup ke stránkám Disallow: /cgi-bin # stejné
  • prázdný řádek je interpretován jako konec pravidla User-agent;
  • v direktivách „Allow“ a „Disallow“ je specifikována pouze jedna hodnota;
  • název souboru robots.txt nepovoluje velká písmena;
  • robots.txt větší než 32 KB není povoleno, roboti takový soubor nestahují a web budou považovat za zcela autorizovaný;
  • nepřístupný soubor robots.txt lze interpretovat jako zcela povolený;
  • prázdný soubor robots.txt je považován za plně povolený;
  • k určení cyrilických hodnot pravidel použijte Punycod;
  • Povoleno je pouze kódování UTF-8 a ASCII: použití jakýchkoli národních abeced a jiných znaků v souboru robots.txt není povoleno.

Speciální znaky:

  • #

    Symbol začátku komentáře, veškerý text za # a před zalomením řádku je považován za komentář a roboti jej nepoužívají.

    *

    Zástupná hodnota označující předponu, příponu nebo celou hodnotu direktivy – libovolnou sadu znaků (včetně prázdných).

  • $

    Označení konce řádku, zákaz přidávání * k hodnotě, zap Příklad:

    User-agent: * #for all Povolit: /$ #povolit indexování hlavní stránky Zakázat: * #zakázat indexování všech stránek kromě povolené

Seznam směrnic

  1. User-agent

    Závazná směrnice. Určuje, na kterého robota se pravidlo vztahuje. Symbol * můžete použít k označení předpony, přípony nebo celého jména robota. Příklad:

    #web je uzavřen pro Google.News a Google.Pictures User-agent: Googlebot-Image User-agent: Googlebot-News Disallow: / #pro všechny roboty, jejichž jméno začíná na Yandex, zavřete sekci „News“ User-agent: Yandex* Disallow: /news #otevřeno všem ostatním User-agent: * Disallow:

  2. Zakázat

    Direktiva určuje, které soubory nebo adresáře nelze indexovat. Hodnota direktivy musí začínat symbolem / nebo *. Ve výchozím nastavení je na konec hodnoty umístěn znak *, pokud to není zakázáno symbolem $.

  3. Povolit

    Každé pravidlo musí mít alespoň jednu direktivu Disallow: nebo Allow:.

    Direktiva určuje, které soubory nebo adresáře mají být indexovány. Hodnota direktivy musí začínat symbolem / nebo *. Ve výchozím nastavení je na konec hodnoty umístěn znak *, pokud to není zakázáno symbolem $.

    Použití směrnice je relevantní pouze ve spojení s Disallow pro umožnění indexování určité podmnožiny stránek, které direktiva Disallow zakazuje indexovat.

  4. Čistý-param

    Nepovinná, průsečíková směrnice. Direktivu Clean-param použijte, pokud adresy stránek webu obsahují parametry GET (zobrazené v URL za znakem?), které neovlivňují jejich obsah (například UTM). Použitím tohoto pravidla všechny adresy budou zredukovány do jediného tvaru - původního, bez parametrů.

    Syntaxe směrnice:

    Clean-param: p0[&p1&p2&..&pn]

    p0… - názvy parametrů, které není třeba brát v úvahu
    cesta - předpona cesty ke stránkám, pro které je pravidlo aplikováno


    Příklad.

    Web má stránky jako

    www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

    Při zadávání pravidla

    User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

    robot zredukuje všechny adresy stránek na jednu:

    www.example.com/nejaky_adresar/get_book.pl?book_id=123

  5. Sitemap

    Nepovinná direktiva, je možné umístit více takových direktiv do jednoho souboru, průsečíkového (stačí to v souboru zadat jednou, aniž bychom to duplikovali pro každého agenta).

    Příklad:

    Soubor Sitemap: https://example.com/sitemap.xml

  6. Zpoždění procházení

    Direktiva umožňuje nastavit vyhledávací robot minimální doba (v sekundách) mezi koncem načítání jedné stránky a začátkem načítání další stránky. Podporovány zlomkové hodnoty

    Minimální přijatelná hodnota pro roboty Yandex je 2,0.

    Googleboti tuto směrnici nerespektují.

    Příklad:

    User-agent: Yandex Crawl-delay: 2,0 # nastaví časový limit na 2 sekundy User-agent: * Crawl-delay: 1,5 # nastaví časový limit na 1,5 sekundy

  7. Hostitel

    Směrnice specifikuje hlavní zrcadlo webu. Na momentálně Z populárních vyhledávačů je podporován pouze Mail.ru.

    Příklad:

    User-agent: Mail.Ru Hostitel: www.site.ru # hlavní zrcadlo z www

Příklady souboru robots.txt pro populární CMS

ROBOTS.TXT pro 1C:Bitrix

Bitrix CMS poskytuje možnost spravovat obsah souboru robots.txt. Chcete-li to provést, musíte v administrativním rozhraní přejít na nástroj „Konfigurace robots.txt“ pomocí vyhledávání nebo cestou Marketing->Optimalizace pro vyhledávače->Konfigurace robots.txt. Obsah souboru robots.txt můžete také změnit pomocí vestavěného editoru souborů Bitrix nebo přes FTP.

Níže uvedený příklad lze použít jako startovací sadu robots.txt pro weby Bitrix, ale není univerzální a vyžaduje přizpůsobení v závislosti na webu.

Vysvětlivky:

  1. Rozdělení na pravidla pro různé agenty je způsobeno tím, že Google nepodporuje direktivu Clean-param.
User-Agent: Yandex Disallow: */index.php Disallow: /bitrix/ Disallow: /*filter Disallow: /*order Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /*bitareas = Disallow: /*clear_cache= Disallow: /*clear_cache_session= Disallow: /*ADD_TO_COMPARE_LIST Disallow: /*ORDER_BY Disallow: /*?print= Disallow: /*&print= Disallow: /*print_course= Disallow: /*?action= Disallow : /*&action= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*backurl= Disallow: / *back_url= Disallow: /*BACKURL= Disallow: /*BACK_URL= Disallow: /*back_url_admin= Disallow: /*?utm_source= Disallow: /*?bxajaxid= Disallow: /*&bxajaxid= Disallow: /*?view_result= Disallow: /*&view_result= Disallow: /*?PAGEN*& Disallow: /*&PAGEN Povolit: */?PAGEN* Povolit: /bitrix/components/*/ Povolit: /bitrix/cache/*/ Povolit: /bitrix/js/* / Povolit: /bitrix/templates/*/ Povolit: /bitrix/panel/*/ Povolit: /bitrix/komponenty/*/*/ Povolit: /bitrix/cache/*/*/ Povolit: /bitrix/js/*/ */ Povolit: /bitrix/templates/*/*/ Povolit: /bitrix/panel/*/*/ Povolit: /bitrix/components/ Povolit: /bitrix/cache/ Povolit: /bitrix/js/ Povolit: /bitrix/ šablony/ Povolit: /bitrix/panel/ Clean-Param: PAGEN_1 / Clean-Param: PAGEN_2 / #pokud má web více komponent se stránkováním, pak duplikujte pravidlo pro všechny možnosti a změňte číslo Clean-Param: sort Clean-Param : utm_source&utm_medium&utm_campaign Clean -Param: openstat User-Agent: * Disallow: */index.php Disallow: /bitrix/ Disallow: /*filter Disallow: /*sort Disallow: /*order Disallow: /*show_include_exec_time: /*show= Disallow = Disallow: /*show_sql_stat= Disallow: /*bitrix_include_areas= Disallow: /*clear_cache= Disallow: /*clear_cache_session= Disallow: /*ADD_TO_COMPARE_LIST Disallow: /*ORDER_BY Disallow: /* /*print= Disallow: /*print_course = Disallow: /*?action= Disallow: /*&action= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: / *auth= Disallow: /*backurl= Disallow: /*back_url= Disallow: /*BACKURL= Disallow: /*BACK_URL= Disallow: /*back_url_admin= Disallow: /*?utm_source= Disallow: /*?bxajaxid= Disallow: / *&bxajaxid= Disallow: /*?view_result= Disallow: /*&view_result= Disallow: /*utm_ Disallow: /*openstat= Disallow: /*?PAGEN*& Disallow: /*&PAGEN Povolit: */?PAGEN* Povolit: / bitrix/components /*/ Povolit: /bitrix/cache/*/ Povolit: /bitrix/js/*/ Povolit: /bitrix/templates/*/ Povolit: /bitrix/panel/*/ Povolit: /bitrix/komponenty/* /*/ Povolit: /bitrix/cache/*/*/ Povolit: /bitrix/js/*/*/ Povolit: /bitrix/templates/*/*/ Povolit: /bitrix/panel/*/*/ Povolit: / bitrix/components / Povolit: /bitrix/cache/ Povolit: /bitrix/js/ Povolit: /bitrix/templates/ Povolit: /bitrix/panel/ Mapa webu: http://site.com/sitemap.xml #nahraďte adresou vašeho souboru Sitemap

ROBOTS.TXT pro WordPress

V administračním panelu WordPressu není vestavěný nástroj pro nastavení robots.txt, takže přístup k souboru je možný pouze pomocí FTP, nebo po instalaci speciálního pluginu (například DL Robots.txt).

Níže uvedený příklad lze použít jako startovací sadu robots.txt pro weby Wordpress, ale není univerzální a vyžaduje přizpůsobení v závislosti na webu.


Vysvětlivky:

  1. direktivy Allow označují cesty k souborům stylů, skriptů a obrázků: pro správné indexování webu musí být přístupné pro roboty;
  2. U většiny webů archivují stránky podle autora a značky pouze duplicitní obsah a nevytvářejí užitečný obsah, takže v tomto příkladu jsou uzavřeny pro indexování. Pokud jsou ve vašem projektu takové stránky nezbytné, užitečné a jedinečné, měli byste odstranit direktivy Disallow: /tag/ a Disallow: /author/.

Příklad správného souboru ROBOTS.TXT pro web na WoRdPress:

User-agent: Yandex # For Yandex Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ vložit Disallow: /xmlrpc.php Disallow: /tag/ Disallow: /readme.html Disallow: *?replytocom Povolit: */uploads Povolit: /*/*.js Povolit: /*/*.css Povolit: /wp-* .png Povolit: /wp-*.jpg Povolit: /wp-*.jpeg Povolit: /wp-*.gif Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-agent: * Disallow: /cgi-bin Disallow: / ? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ embed Disallow: /xmlrpc.php Disallow: *?utm Disallow: *openstat= Disallow: /tag/ Disallow: /readme.html Disallow: *?replytocom Allow: */uploads Allow: /*/*.js Allow: /* /*.css Povolit: /wp-*.png Povolit: /wp-*.jpg Povolit: /wp-*.jpeg Povolit: /wp-*.gif Mapa webu: http://site.com/sitemap.xml # nahradit adresou vašeho souboru Sitemap

ROBOTS.TXT pro OpenCart

V administračním panelu OpenCart není vestavěný nástroj pro konfiguraci robots.txt, takže přístup k souboru je možný pouze pomocí FTP.

Níže uvedený příklad lze použít jako startovací sadu robots.txt pro weby OpenCart, ale není univerzální a vyžaduje přizpůsobení v závislosti na webu.


Vysvětlivky:

  1. direktivy Allow označují cesty k souborům stylů, skriptů a obrázků: pro správné indexování webu musí být přístupné pro roboty;
  2. rozdělení na pravidla pro různé agenty je způsobeno tím, že Google nepodporuje direktivu Clean-param;
User-agent: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product *&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*compare-products Disallow: /*search Disallow: /*cart Disallow: /*checkout Disallow: /*login Disallow: /*logout Disallow: /*vouchers Disallow: /*Wishlist Disallow: /*my-account Disallow: /*order-history Disallow: /*newsletter Disallow: /*return-add Disallow: /*forgot-password Disallow: /*downloads Disallow: /*returns Disallow: /*transactions Disallow: /* create-account Disallow: /*recurring Disallow: /*address-book Disallow: /*reward-points Disallow: /*affiliate-forgot-password Disallow: /*create-affiliate-account Disallow: /*affiliate-login Disallow: / *affiliates Disallow: /*?filter_tag= Disallow: /*brands Disallow: /*specials Disallow: /*simpleregister Disallow: /*simplecheckout Disallow: *utm= Disallow: /*&page Disallow: /*?page*& Allow: / *?page Allow: /catalog/view/javascript/ Allow: /catalog/view/theme/*/ User-agent: Yandex Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route= checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /system Disallow: /*?sort= Disallow: /*&sort = Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: / *&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*compare-products Disallow: /*search Disallow: /*cart Disallow: /*checkout Disallow: /*login Disallow: /*logout Disallow: /*voucher Disallow: /*Wishlist Disallow: /*my-account Disallow: /*order-history Disallow: /*newsletter Disallow: /*return-add Disallow: /*forgot-password Disallow: /*download Disallow: /* returns Disallow: /*transactions Disallow: /*create-account Disallow: /*recurring Disallow: /*address-book Disallow: /*reward-points Disallow: /*affiliate-forgot-password Disallow: /*create-affiliate-account Disallow: /*affiliate-login Disallow: /*affiliates Disallow: /*?filter_tag= Disallow: /*brands Disallow: /*specials Disallow: /*simpleregister Disallow: /*simplecheckout Disallow: /*&page Disallow: /*?page *& Povolit: /*?page Povolit: /catalog/view/javascript/ Povolit: /catalog/view/theme/*/ Clean-Param: page / Clean-Param: utm_source&utm_medium&utm_campaign / Mapa webu: http://site.com/ sitemap.xml #nahraďte adresou vašeho souboru Sitemap

ROBOTS.TXT pro Joomla!

V administračním panelu Joomla není vestavěný nástroj pro nastavení robots.txt, takže přístup k souboru je možný pouze pomocí FTP.

Níže uvedený příklad lze použít jako startovací sadu robots.txt pro weby Joomla s povoleným SEF, ale není univerzální a vyžaduje přizpůsobení v závislosti na webu.


Vysvětlivky:

  1. direktivy Allow označují cesty k souborům stylů, skriptů a obrázků: pro správné indexování webu musí být přístupné pro roboty;
  2. rozdělení na pravidla pro různé agenty je způsobeno tím, že Google nepodporuje direktivu Clean-param;
User-agent: Yandex Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: /component/ Disallow: /search* Disallow: /*mailto/ Allow: /*.css?*$ Allow: /*.less?*$ Allow: /*.js?*$ Allow: /*.jpg?*$ Allow: /*.png?* $ Povolit: /*.gif?*$ Povolit: /templates/*.css Povolit: /templates/*.less Povolit: /templates/*.js Povolit: /components/*.css Povolit: /components/*.less Povolit: /media/*.js Povolit: /media/*.css Povolit: /media/*.less Povolit: /index.php?*view=sitemap* #open the sitemap Clean-param: searchword / Clean-param: limit&limitstart / Clean-param: klíčové slovo / User-agent: * Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: /component/ Disallow: /search* Disallow: /*mailto/ Disallow: /*searchword Disallow: /*keyword Allow: /*.css?*$ Allow: /*.less?*$ Allow: /*.js?* $ Povolit: /*.jpg?*$ Povolit: /*.png?*$ Povolit: /*.gif?*$ Povolit: /templates/*.css Povolit: /templates/*.less Povolit: /templates/* .js Povolit: /components/*.css Povolit: /components/*.less Povolit: /media/*.js Povolit: /media/*.css Povolit: /media/*.less Povolit: /index.php?* view=sitemap* #open the sitemap Sitemap: http://your_site_map_address

Seznam hlavních agentů

Bot Funkce
Googlebot Hlavní indexovací robot Google
Googlebot-News Zprávy Google
Obrázek prohledávače Googlebot Obrázky Google
Googlebot-Video video
Mediální partneři – Google
Mediální partneři Google AdSense, Google Mobile AdSense
AdsBot-Google kontrola kvality vstupní stránky
AdsBot-Google-Mobile-Apps Googlebot pro aplikace
YandexBot Hlavní indexovací robot Yandex
Obrázky Yandex Yandex.Pictures
YandexVideo Yandex.Video
YandexMedia multimediální data
YandexBlogs robot pro vyhledávání blogů
YandexAddurl robot, který přistupuje na stránku, když ji přidává prostřednictvím formuláře „Přidat URL“.
YandexFavicons robot, který indexuje ikony webových stránek (favicony)
YandexDirect Yandex.Direct
YandexMetrika Yandex.Metrica
Katalog Yandex Yandex.Katalog
YandexNews Yandex.News
YandexImageResizer robot mobilní služby
Bingbot Bingův hlavní indexovací robot
Slurp hlavní indexovací robot Yahoo!
Mail.Ru hlavní indexovací robot Mail.Ru

Často kladené otázky

Textový soubor robots.txt je veřejně dostupný, takže byste to měli vzít v úvahu a nepoužívat tento soubor jako prostředek ke skrytí důvěrných informací.

Existují nějaké rozdíly mezi souborem robots.txt pro Yandex a Google?

Neexistují žádné zásadní rozdíly ve zpracování souboru robots.txt vyhledávači Yandex a Google, ale přesto je třeba zdůraznit řadu bodů:

  • jak již bylo uvedeno dříve, pravidla v souboru robots.txt mají poradní charakter, který Google aktivně využívá.

    Google ve své dokumentaci pro práci s robots.txt uvádí, že „..není určeno k tomu, aby bránilo zobrazování webových stránek ve výsledcích vyhledávání Google. “ a „Pokud soubor robots.txt brání prohledávači Googlebot ve zpracování webové stránky, může být stále zobrazena Googlu.“ Chcete-li vyloučit stránky z vyhledávání Google, musíte použít metaznačky robots.

    Yandex vylučuje stránky z vyhledávání, řídí se pravidly robots.txt.

  • Yandex na rozdíl od Google podporuje direktivy Clean-param a Crawl-delay.
  • Google AdsBot nedodržuje pravidla pro User-agent: * musí pro ně být nastavena samostatná pravidla.
  • Mnoho zdrojů uvádí, že soubory skriptů a stylů (.js, .css) by měly být pro indexování otevírány pouze roboty Google. Ve skutečnosti to není pravda a tyto soubory by měly být otevřeny i pro Yandex: od 9. listopadu 2015 začal Yandex při indexování stránek používat js a css (oficiální příspěvek na blogu).

Jak zablokovat indexování webu v souboru robots.txt?

Chcete-li zavřít web v souboru Robots.txt, musíte použít jedno z následujících pravidel:

User-agent: * Disallow: / User-agent: * Disallow: *

Stránku je možné uzavřít pouze na jednu vyhledávač(nebo několik), zatímco zbytek ponechává možnost indexování. Chcete-li to provést, musíte změnit direktivu User-agent v pravidle: nahraďte * jménem agenta, kterému chcete odepřít přístup ().

Jak otevřít web pro indexování v robots.txt?

V obvyklém případě pro otevření webu pro indexování v souboru robots.txt nemusíte provádět žádnou akci, stačí se ujistit, že jsou v souboru robots.txt otevřeny všechny potřebné adresáře. Pokud byl například váš web dříve skryt před indexováním, měli byste ze souboru robots.txt odstranit následující pravidla (v závislosti na použitém):

  • Disallow: /
  • Zakázat: *

Upozorňujeme, že indexování lze zakázat nejen pomocí souboru robots.txt, ale také pomocí metaznačky robots.

Měli byste si také uvědomit, že nepřítomnost souboru robots.txt v kořenovém adresáři webu znamená, že indexování webu je povoleno.

Jak určit hlavní zrcadlo webu v robots.txt?

V současné době není možné specifikovat hlavní zrcadlo pomocí robots.txt. Dříve Yandex PS používal direktivu Host, která obsahovala indikaci hlavního zrcadla, ale od 20. března 2018 Yandex její používání zcela opustil. V současné době je zadání hlavního zrcadla možné pouze pomocí přesměrování stránky 301.

© 2024 ermake.ru -- O opravě PC - Informační portál