Cum se configurează robotul txt. Recomandări pentru configurarea fișierului robots txt

Acasă / Sisteme de operare

Robots.txt este un fișier text care conține parametrii de indexare a site-ului pentru roboții motoarelor de căutare.

Cum se configurează robots.txt

Creați un fișier denumit robots.txt într-un editor de text și completați-l folosind instrucțiunile de mai jos.

Verificați fișierul în serviciul Yandex.Webmaster (analiza Robots.txt în meniu).

Încărcați fișierul în directorul rădăcină al site-ului dvs.

Directiva User-agent

YandexMedia - Indexează datele multimedia.

Dacă există directive pentru un anumit robot, directivele User-agent: Yahoo și User-agent: * nu sunt folosite.

User-agent: YandexBot # va fi folosit numai de robotul principal de indexare Disallow: /*id= User-agent: Yandex # va fi folosit de toți roboții Yandex Disallow: /*sid= # cu excepția robotului principal de indexare User-agent : * # nu va fi folosit de roboții Yandex Disallow: /cgi-bin

Directivele Disallow și Allow

Pentru a interzice robotului să acceseze site-ul dvs. sau anumite secțiuni ale acestuia, utilizați directiva Disallow.

User-agent: YandexDisallow: / # blochează accesul la întregul site User-agent: YandexDisallow: /cgi-bin # blochează accesul la pagini # începând cu „/cgi-bin”

Conform standardului, ar trebui să introduceți o linie goală înaintea fiecărei directive User-agent.

Personajul # desenează comentariu. Tot ce urmează acestui personaj, până la prima întrerupere de rând, este ignorat.

Utilizați directiva Allow pentru a permite robotului să acceseze anumite părți ale site-ului sau întregul site.

User-agent: Yandex Allow: /cgi-bin Disallow: / # interzice descărcarea de orice altceva, cu excepția paginilor # care încep cu „/cgi-bin”

Nota. Între directivele User-agent , Disallow și Allow nu sunt permise întreruperi de linie goale.

Combinarea directivelor

Directivele Allow și Disallow din blocul User-agent corespunzător sunt sortate în funcție de lungimea prefixului URL (de la cel mai scurt la cel mai lung) și sunt aplicate în ordine. Dacă mai multe directive corespund unei anumite pagini de site, robotul o selectează pe ultima din lista sortată. În acest fel, ordinea directivelor din fișierul robots.txt nu afectează modul în care acestea sunt utilizate de către robot.

# Sursă robots.txt: User-agent: Yandex Allow: /catalog Disallow: / # Sorted robots.txt: User-agent: Yandex Disallow: / Allow: /catalog # permite doar descărcarea paginilor # care încep cu „/catalog” # Sursă robots.txt: User-agent: Yandex Allow: /Allow: /catalog/auto Disallow: /catalog # Sorted robots.txt: User-agent: Yandex Allow: / Allow: /catalog Allow: /catalog/auto # interdicții descărcarea paginilor începând cu „/catalog”, # dar permite descărcarea paginilor care încep cu „/catalog/auto”.

Directivele Allow și Disallow fără parametri

Dacă directivele nu conțin parametri, robotul gestionează datele după cum urmează:

User-agent: Yandex Allow: # la fel ca Allow: / User-agent: Yandex Allow: # nu este luat în considerare de robot

Folosind caracterele speciale * și $

Puteți utiliza caracterele speciale * și $ pentru a seta expresii regulate atunci când specificați căi pentru directivele Allow și Disallow. Caracterul * indică orice succesiune de caractere (sau niciunul). Exemple:

Agent utilizator: Yandex Disallow: /cgi-bin/*.aspx # interzice „/cgi-bin/example.aspx” # și „/cgi-bin/private/test.aspx” Disallow: /*private # interzice ambele „ /private”, # și „/cgi-bin/private”

Personajul $

În mod implicit, caracterul * este adăugat la sfârșitul fiecărei reguli descrise în fișierul robots.txt. Exemplu:

User-agent: Yandex Disallow: /cgi-bin* # blochează accesul la pagini # începând cu „/cgi-bin”Disallow: /cgi-bin # la fel

Pentru a anula * la sfârșitul regulii, utilizați caracterul $, de exemplu:

User-agent: Yandex Disallow: /example$ # interzice „/example”, # dar permite „/example.html” User-agent: Yandex Disallow: /example # interzice atât „/example”, # cât și „/example.html „ Caracterul $ nu interzice * la sfârșit, adică: User-agent: Yandex Disallow: /example$ # interzice doar „/example” Disallow: /example*$ # exact la fel ca „Disallow: /example” # interzice atât /example.html, cât și /example

Directiva Sitemap

Dacă utilizați un fișier Sitemap pentru a descrie structura site-ului dvs., indicați calea către fișier ca parametru al directivei Sitemap (dacă aveți mai multe fișiere, indicați toate căile).

Agent utilizator: Yandex Allow: / sitemap: https://example.com/site_structure/my_sitemaps1.xml sitemap: https://example.com/site_structure/my_sitemaps2.xml

Directiva este intersecțională, adică este folosită de robot, indiferent de locația sa în robots.txt .

Robotul își amintește calea către fișierul dvs., vă prelucrează datele și utilizează rezultatele în timpul următoarei vizite pe site-ul dvs.

Directiva Crawl-întârziere

Dacă serverul este supraîncărcat și nu este posibilă procesarea cererilor de descărcare, utilizați directiva Crawl-delay. Puteți specifica intervalul minim (în secunde) pentru ca robotul de căutare să aștepte după descărcarea unei pagini, înainte de a începe descărcarea unei alte pagini.

Pentru a menține compatibilitatea cu roboții care se pot abate de la standard la procesarea robots.txt , adăugați directiva Crawl-delay la grupul care începe cu intrarea User-Agent imediat după directivele Disallow și Allow.

Robotul de căutare Yandex acceptă valori fracționale pentru Crawl-Delay, cum ar fi „0,5”. Acest lucru nu înseamnă că robotul de căutare vă va accesa site-ul la fiecare jumătate de secundă, dar poate accelera procesarea site-ului.

User-agent: Yandex Crawl-delay: 2 # setează un timeout de 2 secunde User-agent: * Disallow: /search Crawl-delay: 4.5 # setează un timeout de 4,5 secunde

Directiva Clean-param

Dacă adresele paginilor site-ului dvs. conțin parametri dinamici care nu afectează conținutul (de exemplu, identificatori de sesiuni, utilizatori, referreri și așa mai departe), îi puteți descrie folosind directiva Clean-param.

Robotul Yandex folosește aceste informații pentru a evita reîncărcarea informațiilor duplicate. Acest lucru îmbunătățește eficient robotul și reduce încărcarea serverului.

De exemplu, site-ul dvs. conține următoarele pagini:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Parametrul ref este folosit doar pentru a urmări resursa de la care a fost trimisă cererea. Nu modifică conținutul paginii Toate cele trei URL-uri vor afișa aceeași pagină cu book_id=123. Apoi, dacă indicați directiva în felul următor:

User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

robotul Yandex va converge toate adresele paginii într-una singură:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Dacă pe site este disponibilă o pagină fără parametri:

www.example.com/some_dir/get_book.pl?book_id=123

toate celelalte URL-uri sunt înlocuite cu acesta după ce robotul îl indexează. Alte pagini ale site-ului dvs. vor fi accesate cu crawlere mai des, deoarece nu va fi nevoie să actualizați paginile:

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Sintaxa directivei

Clean-param: p0[&p1&p2&...&pn]

În primul câmp, enumerați parametrii care trebuie ignorați, separați prin caracterul &. În al doilea câmp, indicați prefixul de cale pentru paginile cărora ar trebui să se aplice regula.

Prefixul poate conține o expresie obișnuită în format similar cu cel folosit în fișierul robots.txt, dar cu unele restricții: puteți folosi doar caracterele A-Za-z0-9.-/*_ . Cu toate acestea, * este interpretat în același mod ca în robots.txt . Un * este întotdeauna adăugat implicit la sfârșitul prefixului. De exemplu:

Clean-param: s /forum/showthread.php

înseamnă că parametrul s este ignorat pentru toate adresele URL care încep cu /forum/showthread.php . Al doilea câmp este opțional, iar în acest caz regula se va aplica tuturor paginilor de pe site. Este sensibil la majuscule. Lungimea maximă a regulii este de 500 de caractere. De exemplu:

Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash

Exemple suplimentare

#pentru adrese precum:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a117a117a117a117a117a&t=8243: utilizatorul va conţine următoarele 243 #trobot. agent: Yandex Disallow: Clean-param: s /forum/showthread.php #pentru adrese precum:www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php?page= 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt va conține următoarele: User-agent: Yandex Disallow: Clean-param: sid /index.php #dacă există mai mulți dintre acești parametri:www.example1.com/forum_old/showthrea ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt va conţine următoarele: User-agent: Clean&-paramal: */showthread.php #dacă parametrul este folosit în mai multe scripturi:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e71crobots.txt va conține următoarele: User-agent: Yandex Disallow: Clean-param: s /forum/index.php Clean-param: s /forum/showthread.php

Folosind caractere chirilice

Utilizarea alfabetului chirilic nu este permisă în fișierele robots.txt și antetele serverului HTTP.

Pentru numele de domenii, utilizați Punycode . Pentru adresele paginilor, utilizați aceeași codificare ca cea utilizată pentru structura actuală a site-ului.

Exemplu de fișier robots.txt:

#Incorect: User-agent: Yandex Disallow: / coș Sitemap: site.рф/sitemap.xml #Correct: User-agent: Yandex Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 Harta site-ului: http://xn--80aswg.xn--p1ai/sitemap.xml

Informații suplimentare

Robotul Yandex acceptă numai directivele robots.txt enumerate pe această pagină. Regulile de procesare a fișierelor descrise mai sus reprezintă o extensie a standardului de bază. Alți roboți pot interpreta conținutul robots.txt într-un mod diferit.

Rezultatele la utilizarea formatului robots.txt extins pot diferi de rezultatele care utilizează standardul de bază, în special:

User-agent: Yandex Allow: / Disallow: /# fără extensii totul a fost interzis deoarece „Allow: /” a fost ignorat, # cu extensii acceptate, totul este permis User-agent: Yandex Disallow: /private*html # fără extensii, " /private*html" a fost interzis, # cu extensiile acceptate, "/private*html", # "/private/test.html", "/private/html/test.aspx", și așa mai departe sunt de asemenea interzise User- agent: Yandex Disallow: /private$ # fără extensii acceptate, „/private$” și „/private$test”, și așa mai departe au fost interzise, # cu extensii acceptate, doar „/private” este interzis User-agent: * Disallow : / User-agent: Yandex Allow: / # fără extensii acceptate, din cauza rupturii de linie lipsă, # „User-agent: Yandex” va fi ignorat # rezultatul ar fi „Disallow: /”, dar robotul Yandex # analizează șiruri bazate pe subșirul „User-agent:”. # În acest caz, rezultatul pentru robotul Yandex este „Permite: /” User-agent: * Disallow: / # comment1... # comment2... # comment3... User-agent: Yandex Allow: / # același ca în exemplul anterior (vezi mai sus)

Exemple de utilizare a formatului robots.txt extins:

User-agent: Yandex Allow: /archive Disallow: / # permite tot ceea ce conține „/archive”; restul este interzis User-agent: Yandex Allow: /obsolete/private/*.html$ # permite fișierele HTML # în calea „/obsolete/private/...” Disallow: /*.php$ # interzice toate „* .php" pe siteDisallow: /*/private/ # interzice toate căile secundare care conțin # „/private/”, dar Allow de mai sus anulează # partea din interdicție Disallow: /*/old/*.zip$ # interzice toate „*. zip” care conțin # „/old/” în calea User-agent: Yandex Disallow: /add.php?*user= # interzice toate „add.php?” scripturi cu opțiunea „utilizator”.

Când formați fișierul robots.txt, ar trebui să rețineți că robotul pune o limită rezonabilă pentru dimensiunea acestuia. Dacă dimensiunea fișierului depășește 32 KB, robotul presupune că permite totul, adică este interpretat la fel ca.

Configurarea corectă a fișierului robots.txt va elimina posibile probleme, apărute în timpul indexării.

În special, proprietarul site-ului are posibilitatea de a limita indexarea secțiunilor de serviciu și personale ale resursei. Cum să creați un fișier și să îl configurați pentru diferite motoare de căutare, precum și pentru CMS popular - vom vorbi în această publicație.

Pentru ce este fișierul robots.txt?

După cum ați putea ghici, acest fișier conține instrucțiuni destinate roboților de căutare. Acesta trebuie să fie plasat în directorul rădăcină, astfel încât roboții vor începe să indexeze pagina citind condițiile stabilite în robots.txt.

Astfel, fișierul indică roboților de căutare care directoare ale site-ului sunt permise pentru indexare și care nu sunt supuse acestui proces.

Avand in vedere ca prezenta fisierului nu afecteaza procesul de clasare, multe site-uri nu contin robots.txt. Dar asta nu este cu adevărat calea corectă. Să ne uităm la avantajele pe care robots.txt le oferă resursei.

Puteți interzice indexarea unei resurse în întregime sau parțial și puteți limita gama de roboți de căutare care vor avea dreptul de a efectua indexarea. Puteți proteja complet resursa de acest proces (de exemplu, atunci când creați sau reconstruiți un site web).

În plus, fișierul roboți restricționează accesul la resursă de către tot felul de roboți spam, al căror scop este să scaneze site-ul pentru prezența adrese de e-mail, care va fi apoi folosit pentru a trimite spam. Să nu ne oprim asupra la ce ar putea duce acest lucru – și asta este de înțeles.

Puteți ascunde de la indexare secțiuni ale site-ului care nu sunt destinate motoarelor de căutare, ci unui anumit cerc de utilizatori, secțiuni care conțin informații private și alte informații similare.

Cum să creați robots.txt corect

Roboții potriviți pot fi scrisi cu ușurință manual, fără a apela la ajutorul diverșilor constructori. Procesul se reduce la scrierea directivelor necesare într-un fișier notepad obișnuit, pe care apoi trebuie să îl salvați sub numele „roboți” și să îl încărcați în directorul rădăcină al propriei resurse. Un astfel de fișier este necesar pentru un site. Poate conține instrucțiuni pentru roboții de căutare ai tuturor motoarelor de căutare relevante. Adică, nu este nevoie să creați un fișier separat pentru fiecare motor de căutare.

Ce ar trebui să fie scris în dosar? Este obligatoriu să folosiți două directive: User-agent și Disallow. Primul determină cărui bot este adresat acest mesaj, al doilea arată ce pagină sau director de resurse nu este interzis să fie indexat.

Pentru a seta aceleași reguli pentru toți roboții, puteți folosi simbolul asterisc în loc de numele din directiva User-agent.
În acest caz, fișierul robots.txt va arăta astfel:

Apropo, dezvoltatorii Google le-au reamintit în mod repetat webmasterilor că fișierul robots.txt nu trebuie să depășească 500 KB. Acest lucru va duce cu siguranță la erori în timpul indexării. Dacă creați un fișier manual, atunci „atingerea” unei astfel de dimensiuni este, desigur, nerealistă. Dar unele CMS-uri care generează automat conținut robots.txt îl pot face semnificativ mai greu.

Creați cu ușurință un fișier pentru orice motor de căutare

Dacă vă este frică să nu faceți greșeli când scrieți un fișier (sau pur și simplu sunteți prea leneși să faceți acest lucru), puteți încredința constructorului crearea directivelor necesare. Este la fel de simplu ca de două ori două, dar vom oferi totuși o scurtă explicație despre cum să lucrați cu el.

Primul câmp conține adresa resursei. Abia după aceasta utilizatorul va avea posibilitatea de a selecta motorul de căutare pentru care sunt setate aceste reguli (puteți selecta mai multe motoare de căutare secvenţial). Apoi, trebuie să specificați folderele și fișierele la care accesul va fi interzis, să specificați adresa oglinzii site-ului și să indicați locația hărții resurselor.

Pe măsură ce completați câmpurile, directoarele necesare vor fi introduse în câmpul de jos. Tot ce trebuie să faceți în final este să le copiați într-un fișier txt și să îi dați numele roboți.

Cum să verificați eficacitatea fișierului dvs. robots.txt

Pentru a analiza acțiunea unui fișier în Yandex, ar trebui să mergeți la pagina corespunzătoare din secțiunea Yandex.Webmaster. În caseta de dialog, specificați numele site-ului și faceți clic pe butonul „descărcare”.

Sistemul va analiza fișierul robots.txt și va indica dacă robotul de căutare va accesa cu crawlere paginile interzise de indexare. Dacă apar probleme, directivele pot fi editate și testate direct în caseta de dialog, apoi copiate și lipite în fișierul robots.txt din directorul rădăcină.

Un serviciu similar este oferit de serviciul Instrumente pentru webmasteri din motorul de căutare Google.

Crearea robots.txt pentru WordPress, Joomla și Ucoz

Diverse CMS-uri care au câștigat o mare popularitate în spațiile noastre deschise oferă utilizatorilor propriile versiuni ale fișierelor robots.txt (sau nu le au deloc). Adesea, aceste fișiere sunt fie prea universale și nu țin cont de caracteristicile resursei utilizatorului, fie au o serie de deficiențe semnificative.

Poți încerca să le faci modificări manual (ceea ce nu este foarte eficient dacă îți lipsesc cunoștințele) sau poți folosi experiența unor colegi mai profesioniști. După cum se spune, totul a fost deja făcut înaintea noastră. De exemplu, robots.txt pentru WordPress ar putea arăta astfel:

Linia www.site.ru, desigur, ar trebui înlocuită cu adresa site-ului web al utilizatorului.

Interziceți indexarea pentru următorii roboți:

Pentru toată lumea
Yandex
Google
Mail.ru
Rammler
Bing
Yahoo

Domeniul site-ului principal:

Timeout între tranzițiile robotului între pagini:
1 secundă 5 secunde 10 secunde 60 secunde

Să mergem la harta site-ului, sitemap.xml:

Gata robots.txt:

Salvați datele în fișierul „robots.txt” și copiați-l în folderul rădăcină al site-ului.

Pentru ce este folosit instrumentul „Robots.txt Generator”?

Site-ul de servicii vă prezintă instrumentul „Robots.txt Generator”, cu ajutorul căruia puteți crea un fișier robots.txt online în câteva secunde, precum și să interziceți indexarea paginilor site-ului de către anumite motoare de căutare.

Ce este robots.txt

Robots.txt este un fișier care se află la rădăcina site-ului și conține instrucțiuni pentru roboții de căutare. Când vizitează orice resursă, roboții încep să se familiarizeze cu ea din fișierul robots.txt - un fel de „instrucțiuni de utilizare”. Editorul indică acest dosar modul în care un robot trebuie să interacționeze cu o resursă. De exemplu, poate conține o interdicție privind indexarea anumitor pagini sau o recomandare de a menține un interval de timp între salvarea documentelor de pe serverul web.

Capacitățile instrumentului

Webmasterul poate seta o interdicție a indexării de către roboții motoarelor de căutare Yandex, Google, Mail.ru, Rambler, Bing sau Yahoo!, precum și să stabilească un timeout între tranzițiile robotului de căutare pe paginile de resurse și să interzică indexarea paginilor selectate ale site-ului. site-ul. În plus, într-o linie specială puteți indica roboților să caute calea către harta site-ului (sitemap.xml).

După ce completați toate câmpurile instrumentului și faceți clic pe butonul „Creați”, sistemul va genera automat un fișier pentru roboții de căutare, pe care va trebui să îl plasați în zona rădăcină a site-ului dvs.

Vă rugăm să rețineți că fișierul robots.txt nu poate fi utilizat pentru a ascunde o pagină din rezultatele căutării, deoarece alte resurse pot trimite către aceasta, iar roboții de căutare o vor indexa într-un fel sau altul. Vă reamintim că pentru a bloca o pagină în rezultatele căutării, utilizați o etichetă specială „noindex” sau setați o parolă.

De asemenea, merită remarcat faptul că folosind instrumentul Robots.txt Generator veți crea un fișier cu caracter pur consultativ. Desigur, boții „ascultă” instrucțiunile lăsate de webmasteri în fișierul robots.txt, dar uneori le ignoră. De ce se întâmplă asta? Pentru că fiecare robot de căutare are propriile setări, conform cărora interpretează informațiile primite din fișierul robots.txt.

Fișierul sitemap.xml și robots.txt corect pentru site sunt două documente obligatorii care contribuie la indexarea rapidă și completă a tuturor paginilor necesare unei resurse web de către roboții de căutare. Indexarea corectă a site-urilor în Yandex și Google este cheia promovării de succes a blogului în motoarele de căutare.

Am scris deja cum se face un sitemap în format XML și de ce este necesar. Acum să vorbim despre cum să creați robots.txt corect pentru un site WordPress și de ce este necesar în general. Informații detaliate informații despre acest fișier pot fi obținute de la Yandex și, respectiv, Google. Voi ajunge la miez și voi atinge setările de bază robots.txt pentru WordPress folosind fișierul meu ca exemplu.

De ce aveți nevoie de un fișier robots.txt pentru un site web?

Standardul robots.txt a apărut în ianuarie 1994. Când scanează o resursă web, roboții de căutare caută mai întâi fișier text robots.txt, situat în folderul rădăcină al site-ului sau blogului. Cu ajutorul acestuia, putem specifica anumite reguli pentru roboții diferitelor motoare de căutare prin care aceștia vor indexa site-ul.

Configurarea corectă a robots.txt vă va permite să:

excludeți duplicatele și diversele pagini nedorite din index;
interzicerea indexării paginilor, fișierelor și folderelor pe care dorim să le ascundem;
în general refuză indexarea la unii roboți de căutare (de exemplu, Yahoo, pentru a ascunde informații despre link-urile primite de la concurenți);
indicați oglinda principală a site-ului (cu www sau fără www);
specificați calea către sitemap sitemap.xml.

Cum să creați robots.txt corect pentru un site

Există generatoare și plugin-uri speciale în acest scop, dar este mai bine să faceți acest lucru manual.

Trebuie doar să creați un fișier text obișnuit numit robots.txt, folosind orice editor de text (de exemplu, Notepad sau Notepad++) și să îl încărcați în găzduirea dvs. în folderul rădăcină al blogului dvs. Anumite directive trebuie să fie scrise în acest fișier, de ex. reguli de indexare pentru roboții Yandex, Google etc.

Dacă vă este prea lene să vă deranjați cu asta, atunci mai jos voi da un exemplu, din punctul meu de vedere, al robots.txt corect pentru WordPress de pe blogul meu. Îl poți folosi prin înlocuirea numelui de domeniu în trei locuri.

Reguli și directive de creare Robots.txt

Pentru succes optimizarea motoarelor de căutare blog trebuie să cunoașteți câteva reguli pentru crearea robots.txt:

Absența sau dosar gol robots.txt va însemna că motoarele de căutare au voie să indexeze tot conținutul unei resurse web.
robots.txt ar trebui să se deschidă la adresa site-ul dumneavoastră.ru/robots.txt, oferindu-i robotului un cod de răspuns de 200 OK și să nu aibă o dimensiune mai mare de 32 KB. Un fișier care nu se deschide (de exemplu, din cauza unei erori 404) sau este mai mare va fi considerat ok.
Numărul de directive din fișier nu trebuie să depășească 1024. Lungimea unui rând nu trebuie să depășească 1024 de caractere.
Un fișier robots.txt valid poate avea mai multe instrucțiuni, fiecare dintre acestea trebuie să înceapă cu o directivă User-agent și trebuie să conțină cel puțin o directivă Disallow. De obicei, ei scriu instrucțiuni în robots.txt pentru Google și toți ceilalți roboți și separat pentru Yandex.

Directivele de bază robots.txt:

User-agent – indică cărui robot de căutare îi este adresată instrucțiunea.

Simbolul „*” înseamnă că acest lucru se aplică tuturor roboților, de exemplu:

Agent utilizator: *

Dacă trebuie să creăm o regulă în robots.txt pentru Yandex, atunci scriem:

Agent utilizator: Yandex

Dacă este specificată o directivă pentru un anumit robot, directiva User-agent: * nu este luată în considerare de acesta.

Disallow și Allow – respectiv, interzice și permit roboților să indexeze paginile specificate. Toate adresele trebuie specificate de la rădăcina site-ului, adică. începând de la a treia slash. De exemplu:

Interzicerea tuturor roboților să indexeze întregul site:
Agent utilizator: *
Nu permite: /
Yandex nu are voie să indexeze toate paginile care încep cu /wp-admin:
Agent utilizator: Yandex
Nu permiteți: /wp-admin
Directiva goală Disallow permite ca totul să fie indexat și este similară cu Allow. De exemplu, permit lui Yandex să indexeze întregul site:
Agent utilizator: Yandex
Nu permiteți:
Și invers, interzic tuturor roboților de căutare să indexeze toate paginile:
Agent utilizator: *
Permite:
Directivele Allow și Disallow din același bloc User-agent sunt sortate după lungimea prefixului URL și sunt executate secvenţial. Dacă mai multe directive sunt potrivite pentru o pagină a site-ului, atunci ultima din listă este executată. Acum, ordinea în care sunt scrise nu contează când robotul folosește directive. Dacă directivele au prefixe de aceeași lungime, atunci se execută mai întâi Allow. Aceste reguli au intrat în vigoare la 8 martie 2012. De exemplu, permite indexarea numai a paginilor care încep cu /wp-includes:
Agent utilizator: Yandex
Nu permite: /
Permite: /wp-include

Sitemap – Specifică adresa XML sitemap. Un site poate avea mai multe directive Sitemap, care pot fi imbricate. Toate adresele fișierelor Sitemap trebuie specificate în robots.txt pentru a accelera indexarea site-ului:

Harta site-ului: http://site/sitemap.xml.gz
Harta site-ului: http://site/sitemap.xml

Gazdă – îi spune robotului oglindă ce oglindă a site-ului web să ia în considerare cea principală.

Dacă site-ul este accesibil la mai multe adrese (de exemplu, cu www și fără www), atunci se creează pagini duplicate complete, care pot fi captate de filtru. De asemenea, în acest caz, poate să nu fie pagina principală care este indexată, dar pagina principală, dimpotrivă, va fi exclusă din index. motor de căutare. Pentru a preveni acest lucru, utilizați directiva Gazdă, care este destinată în fișierul robots.txt numai pentru Yandex și poate exista doar una. Este scris după Disallow și Allow și arată astfel:

Gazdă: site web

Crawl-delay – setează întârzierea între descărcarea paginilor în secunde. Folosit dacă există o sarcină mare și serverul nu are timp să proceseze cererile. Pe site-urile tinere este mai bine să nu folosiți directiva Crawl-delay. Este scris astfel:

Agent utilizator: Yandex
Întârziere crawler: 4

Clean-param - acceptat numai de Yandex și este folosit pentru a elimina paginile duplicate cu variabile, îmbinându-le într-una singură. Astfel, robotul Yandex nu va descărca pagini similare de multe ori, de exemplu, cele asociate cu link-uri de recomandare. Nu am folosit încă această directivă, dar în ajutorul de pe robots.txt pentru Yandex, urmați linkul de la începutul articolului, puteți citi această directivă în detaliu.

Caracterele speciale * și $ sunt folosite în robots.txt pentru a indica căile directivelor Disallow și Allow:

Caracterul special „*” înseamnă orice succesiune de caractere. De exemplu, Disallow: /*?* înseamnă o interdicție pentru orice pagină în care apare „?”, indiferent de caracterele care apar înainte și după acest caracter. În mod implicit, caracterul special „*” este adăugat la sfârșitul fiecărei reguli, chiar dacă nu este specificat în mod specific.
Simbolul „$” anulează „*” de la sfârșitul regulii și înseamnă potrivire strictă. De exemplu, directiva Disallow: /*?$ va interzice indexarea paginilor care se termină cu caracterul „?”.

Exemplu robots.txt pentru WordPress

Iată un exemplu al fișierului meu robots.txt pentru un blog pe motorul WordPress:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Pentru a nu te păcăli creând robots.txt corect pentru WordPress, poți folosi acest fișier. Nu există probleme cu indexarea. Am un script de protecție împotriva copierii, așa că va fi mai convenabil să descărcați robots.txt gata făcut și să îl încărcați pe găzduirea dvs. Nu uitați să înlocuiți numele site-ului meu cu al dumneavoastră în directivele Gazdă și Sitemap.

Adăugiri utile pentru configurarea corectă a fișierului robots.txt pentru WordPress

Dacă comentariile arborelui sunt instalate pe blogul dvs. WordPress, atunci ele creează pagini duplicat de forma ?replytocom= . În robots.txt, astfel de pagini sunt închise cu directiva Disallow: /*?*. Dar aceasta nu este o soluție și este mai bine să eliminați interdicțiile și să combateți replytocom într-un alt mod. Ce, .

Astfel, actualul robots.txt din iulie 2014 arată astfel:

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -include Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Gazdă: site.ru User-agent: Googlebot-Image Allow: /wp-content /uploads/ Agent utilizator: YandexImages Allow: /wp-content/uploads/ Harta site-ului: http://site.ru/sitemap.xml

În plus, stabilește regulile pentru roboții de indexare a imaginilor.

Agent utilizator: Mediapartners-Google
Nu permiteți:

Dacă intenționați să promovați pagini de categorii sau etichete, atunci ar trebui să le deschideți roboților. De exemplu, pe un site de blog, categoriile nu sunt închise de la indexare, deoarece publică doar mici anunțuri de articole, ceea ce este destul de nesemnificativ în ceea ce privește duplicarea conținutului. Și dacă utilizați afișarea citatelor în fluxul de blog, care sunt pline cu anunțuri unice, atunci nu va exista deloc duplicare.

Dacă nu utilizați pluginul de mai sus, puteți specifica în fișierul robots.txt să interziceți indexarea etichetelor, categoriilor și arhivelor. De exemplu, adăugând următoarele linii:

Nu permiteți: /autor/
Nu permiteți: /tag
Nu permiteți: /categorie/*/*
Nu permite: /20*

Nu uitați să verificați fișierul robots.txt din panoul Yandex.Webmaster, apoi să îl reîncărcați pe găzduirea dvs.

Dacă aveți completări pentru a configura robots.txt, scrieți despre asta în comentarii. Acum urmăriți un videoclip despre ce este și cum să creați robots.txt corect pentru un site, cum să interziceți indexarea în fișierul robots.txt și cum să corectați erorile.

Fișierul robots.txt se află în directorul rădăcină al site-ului dvs. De exemplu, pe site-ul www.example.com adresa fișierului robots.txt va arăta ca www.example.com/robots.txt. Fișierul robots.txt este un fișier text simplu care urmează standardul de excludere a roboților și include una sau mai multe reguli, fiecare dintre acestea refuzând sau permite unui anumit crawler să acceseze o anumită cale pe site.

Iată un exemplu dosar simplu robots.txt cu două reguli. Mai jos sunt explicații.

# Agent utilizator grup 1: Googlebot Nepermis: /nogooglebot/ # Agent utilizator grup 2: * Permite: / Sitemap: http://www.example.com/sitemap.xml

Explicații

Agentul utilizator numit Googlebot nu ar trebui să acceseze cu crawlere directorul http://example.com/nogooglebot/ și subdirectoarele acestuia.
Toți ceilalți agenți utilizatori au acces la întregul site (poate fi omis, rezultatul va fi același, deoarece accesul complet este acordat în mod implicit).
Fișier Sitemap acest site se află la http://www.example.com/sitemap.xml.

Mai jos sunt câteva sfaturi pentru lucrul cu fișierele robots.txt. Vă recomandăm să studiați sintaxa completă a acestor fișiere, deoarece regulile de sintaxă folosite pentru a le crea nu sunt evidente și trebuie să le înțelegeți.

Format și aspect

Puteți crea un fișier robots.txt în aproape orice editor de text care acceptă codificarea UTF-8. Nu utilizați procesoare de text, deoarece salvează adesea fișiere într-un format proprietar și adaugă caractere nevalide, cum ar fi ghilimele, care nu sunt recunoscute de roboții de căutare.

Când creați și testați fișiere robots.txt, utilizați un instrument de testare. Vă permite să analizați sintaxa unui fișier și să aflați cum va funcționa acesta pe site-ul dvs.

Reguli privind formatul și locația fișierului

Fișierul ar trebui să fie numit robots.txt.
Ar trebui să existe un singur astfel de fișier pe site.
Fișierul robots.txt trebuie plasat în directorul rădăcină site-ul. De exemplu, pentru a controla accesarea cu crawlere a tuturor paginilor de pe site-ul http://www.example.com/, fișierul robots.txt ar trebui să fie localizat la http://www.example.com/robots.txt. Nu ar trebui să fie într-un subdirector(de exemplu, la adresa http://example.com/pages/robots.txt). Dacă întâmpinați dificultăți la accesarea directorului rădăcină, contactați furnizorul dvs. de găzduire. Dacă nu aveți acces la directorul rădăcină al site-ului, utilizați metoda alternativaîncuietori, cum ar fi metaetichetele.
Fișierul robots.txt poate fi adăugat la adrese cu subdomenii(de exemplu http:// site-ul web.example.com/robots.txt) sau porturi non-standard (de exemplu, http://example.com: 8181 /roboți.txt).
Orice text după simbolul # este considerat un comentariu.

Sintaxă

Fișierul robots.txt trebuie să fie un fișier text codificat în UTF-8 (care include coduri de caractere ASCII). Alte seturi de caractere nu pot fi utilizate.
Fișierul robots.txt este format din grupuri.
Fiecare grup poate contine mai multe reguli, unul pe linie. Aceste reguli se mai numesc directive.
Grupul include următoarele informații:
- La care agent utilizator Se aplică directivele de grup.
- au acces.
- Ce directoare sau fișiere accesează acest agent? nici un acces.
Instrucțiunile de grup sunt citite de sus în jos. Robotul va urma doar regulile unui grup cu agentul utilizator care se potrivește cel mai bine.
Implicit se presupune că, dacă accesul la o pagină sau un director nu este blocat de regula Disallow:, atunci agentul utilizator îl poate procesa.
Reguli caz sensibil. Astfel, regula Disallow: /file.asp se aplică la adresa URL http://www.example.com/file.asp, dar nu la http://www.example.com/File.asp.

Directive utilizate în fișierele robots.txt

Agent utilizator: Directivă obligatorie, pot fi mai multe dintre acestea într-un grup. Stabilește ce motor de căutare robot trebuie aplicate reguli. Fiecare grup începe cu această linie. Majoritatea agenților de utilizator legați de Google Robots pot fi găsiți într-o listă specială și în Internet Robots Database. Caracterul metacar * este acceptat pentru a indica un prefix, sufix al unei căi sau întreaga cale. Utilizați semnul * așa cum se arată în exemplul de mai jos pentru a bloca accesul la toate crawlerele ( cu excepția roboților AdsBot, care trebuie specificat separat). Vă recomandăm să vă familiarizați cu lista roboților Google. Exemple:# Exemplu 1. Blocarea accesului numai la Googlebot User-agent: Googlebot Disallow: / # Exemplul 2. Blocarea accesului la Googlebot și roboții AdsBot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Exemplul 3. Blocarea accesului la toți roboții , cu excepția agentului utilizator AdsBot: * Nu permiteți: /
Nu permiteți: . Indică un director sau o pagină relativă la domeniul rădăcină care nu poate fi accesată cu crawlere de către agentul utilizator definit mai sus. Dacă aceasta este o pagină, trebuie specificată calea completă către aceasta, ca în bara de adrese a browserului. Dacă este un director, calea trebuie să se termine cu o bară oblică (/). Caracterul metacar * este acceptat pentru a indica un prefix, sufix al unei căi sau întreaga cale.
Permite: Cel puțin o directivă Disallow: sau Allow: trebuie să fie în fiecare grup. Indică un director sau o pagină relativă la domeniul rădăcină care poate fi accesată cu crawlere de către agentul utilizator definit mai sus. Folosit pentru a suprascrie directiva Disallow și a permite scanarea unui subdirector sau a unei pagini dintr-un director închis pentru scanare. Dacă aceasta este o pagină, trebuie specificată calea completă către aceasta, ca în bara de adrese a browserului. Dacă este un director, calea trebuie să se termine cu o bară oblică (/). Caracterul metacar * este acceptat pentru a indica un prefix, sufix al unei căi sau întreaga cale.
Harta site-ului: O directivă opțională poate fi mai multe sau niciuna dintre acestea în fișier. Indică locația Sitemap-ului utilizat pe acest site. Adresa URL trebuie să fie completă. Google nu procesează și nu validează variațiile URL cu prefixele http și https sau cu sau fără elementul www. Sitemaps spune Google ce conținut trebuie să scanează și cum să-l deosebești de conținutul care Can sau este interzis scanează. Exemplu: Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml

Alte reguli sunt ignorate.

Un alt exemplu

Fișierul robots.txt este format din grupuri. Fiecare dintre ele începe cu o linie User-agent, care definește robotul care trebuie să respecte regulile. Mai jos este un exemplu de fișier cu două grupuri și comentarii explicative pentru ambele.

# Blocați accesul Googlebot la example.com/directory1/... și example.com/directory2/... # dar permiteți accesul la directory2/subdirectory1/... # Accesul la toate celelalte directoare este permis în mod implicit. Agent de utilizator: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Blocați accesul la întregul site către alt motor de căutare. Agent utilizator: un alt crawler Nu permite: /

Sintaxa completă a fișierului robots.txt

Sintaxa completă este descrisă în acest articol. Vă recomandăm să vă familiarizați cu acesta, deoarece există câteva nuanțe importante în sintaxa fișierului robots.txt.

Reguli utile

Iată câteva reguli comune pentru fișierul robots.txt:

Regulă	Exemplu
Interzicerea accesării cu crawlere a întregului site. Rețineți că, în unele cazuri, adresele URL ale site-urilor pot fi prezente în index, chiar dacă nu au fost accesate cu crawlere. Vă rugăm să rețineți că această regulă nu se aplică roboților AdsBot, care trebuie specificate separat.	Agent utilizator: * Nu permite: /
Pentru a preveni scanarea unui director și a întregului conținut al acestuia, plasați o bară oblică după numele directorului. Nu utilizați robots.txt pentru protecție informații confidențiale! Autentificarea ar trebui utilizată în aceste scopuri. Adresele URL care nu pot fi accesate cu crawlere de către fișierul robots.txt pot fi indexate, iar conținutul fișierului robots.txt poate fi vizualizat de orice utilizator și astfel dezvăluie locația fișierelor cu informații sensibile.	User-agent: * Disallow: /calendar/ Disallow: /junk/
Pentru a permite accesul cu crawler doar unui singur crawler	User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Pentru a permite accesarea cu crawlere pentru toate crawlerele, cu excepția unuia	User-agent: Unnecessarybot Disallow: / User-agent: * Permite: /
Pentru a preveni accesarea cu crawlere a unei anumite pagini, specificați această pagină după bară oblică.	Agent de utilizator: * Disallow: /private_file.html
Pentru a ascunde o anumită imagine de robotul Google Images	Agent de utilizator: Googlebot-Image Disallow: /images/dogs.jpg
Pentru a ascunde toate imaginile de pe site-ul dvs. de robotul Google Images	Agent de utilizator: Googlebot-Image Disallow: /
Pentru a preveni scanarea tuturor fișierelor de un anumit tip(V în acest caz, GIF)	Agent utilizator: Googlebot Disallow: /*.gif$
Pentru a bloca anumite pagini de pe site-ul dvs., dar să afișați în continuare anunțuri AdSense pe ele, utilizați regula de respingere pentru toți roboții, cu excepția Mediapartners-Google. Ca urmare, acest robot va putea accesa paginile eliminate din rezultatele căutării pentru a selecta anunțuri pentru a le afișa unui anumit utilizator.	User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Pentru a specifica o adresă URL care se termină cu anumit fragment , utilizați simbolul $. De exemplu, pentru adresele URL care se termină în .xls, utilizați următorul cod:	Agent de utilizator: Googlebot Disallow: /*.xls$

Au fost utile aceste informații?

Cum poate fi îmbunătățit acest articol?