Kaip sukonfigūruoti robotą txt. Rekomendacijos, kaip nustatyti robotų txt failą

Pradžia / Operacinės sistemos

Robots.txt yra tekstinis failas, kuriame yra svetainės indeksavimo parametrai, skirti paieškos variklio robotams.

Kaip nustatyti robots.txt

Sukurkite failą pavadinimu robots.txt teksto rengyklėje ir užpildykite jį vadovaudamiesi toliau pateiktomis gairėmis.

Patikrinkite failą Yandex.Webmaster tarnyboje (meniu pateikiama Robots.txt analizė).

Įkelkite failą į savo svetainės šakninį katalogą.

Vartotojo agento direktyva

„YandexMedia“ – indeksuoja daugialypės terpės duomenis.

Jei yra nurodymų konkrečiam robotui, direktyvos User-agent: Yahoo ir User-agent: * nenaudojamos.

Vartotojo agentas: YandexBot # naudos tik pagrindinis indeksavimo robotas Disallow: /*id= Vartotojo agentas: Yandex # naudos visi Yandex robotai Disallow: /*sid= # išskyrus pagrindinį indeksavimo robotą User-agent : * # nenaudos Yandex robotai Disallow: /cgi-bin

Neleisti ir leisti direktyvos

Norėdami uždrausti robotui pasiekti jūsų svetainę ar tam tikras jos dalis, naudokite direktyvą Neleisti.

Vartotojo agentas: YandexDisallow: / # blokuoja prieigą prie visos svetainės Vartotojo agentas: YandexDisallow: /cgi-bin # blokuoja prieigą prie puslapių, # prasidedančių "/cgi-bin"

Pagal standartą prieš kiekvieną vartotojo agento direktyvą turėtumėte įterpti tuščią eilutę.

# simbolis kuria komentarus. Į viską, kas po šio simbolio, iki pirmosios eilutės lūžio, neatsižvelgiama.

Naudokite direktyvą Leisti, kad robotas galėtų pasiekti konkrečias svetainės dalis arba visą svetainę.

Vartotojo agentas: Yandex Leisti: /cgi-bin Disallow: / # draudžia atsisiųsti bet ką, išskyrus puslapius # prasidedančius "/cgi-bin"

Pastaba.

Tušti eilučių lūžiai tarp direktyvų „User-agent“ , „Disallow“ ir „Allow“ neleidžiami.

Sujungus direktyvas

# Šaltinis robots.txt: Vartotojo agentas: Yandex Leisti: /catalog Disallow: / # Rūšiuotas robots.txt: Vartotojo agentas: Yandex Disallow: / Leisti: /catalog # leidžia atsisiųsti tik puslapius # prasidedančius "/catalog" # Šaltinis robots.txt: Vartotojo priemonė: Yandex Leisti: /Leisti: /catalog/auto Neleisti: /catalog # Rūšiuota robots.txt: Vartotojo priemonė: Yandex Leisti: / Neleisti: /catalog Leisti: /catalog/auto # draudimai atsisiųsti puslapius pradedant "/catalog", # bet leidžia atsisiųsti puslapius, prasidedančius "/catalog/auto".

Leisti ir neleisti direktyvos be parametrų

Jei direktyvose nėra parametrų, robotas tvarko duomenis taip:

Vartotojo agentas: Yandex Disallow: # tas pats kaip Leisti: / Vartotojo agentas: Yandex Leisti: # robotas neatsižvelgia

Naudojant specialiuosius simbolius * ir $

Galite naudoti specialiuosius simbolius * ir $ norėdami nustatyti reguliariąsias išraiškas, kai nurodote direktyvų Leisti ir Neleisti kelius. Simbolis * nurodo bet kokią simbolių seką (arba jokios). Pavyzdžiai:

Vartotojo agentas: Yandex Disallow: /cgi-bin/*.aspx # draudimai "/cgi-bin/example.aspx" # ir "/cgi-bin/private/test.aspx" Neleisti: /*privatus # draudžia abu " /private", # ir "/cgi-bin/private"

$ simbolis

Pagal numatytuosius nustatymus simbolis * pridedamas prie kiekvienos taisyklės, aprašytos robots.txt faile, pabaigoje. Pavyzdys:

Vartotojo agentas: Yandex Disallow: /cgi-bin* # blokuoja prieigą prie puslapių #, prasidedančių "/cgi-bin"Disallow: /cgi-bin # tas pats

Norėdami atšaukti * taisyklės pabaigoje, naudokite simbolį $, pavyzdžiui:

User-agent: Yandex Disallow: /example$ # draudžia "/example", # bet leidžia "/example.html" Vartotojo agentas: Yandex Disallow: /example # draudžia ir "/example", # ir "/example.html " $ simbolis"nedraudžia * pabaigoje, tai yra: Vartotojo agentas: Yandex Disallow: /example$ # draudžia tik "/example" Disallow: /example*$ # lygiai toks pat kaip "Disallow: /example" # draudžia ir /example.html, ir /example

Svetainės schemos direktyva

Jei svetainės struktūrai apibūdinti naudojate svetainės schemos failą, nurodykite kelią į failą kaip svetainės schemos direktyvos parametrą (jei turite kelis failus, nurodykite visus kelius).

Vartotojo priemonė: Yandex Allow: / svetainės schema: https://example.com/site_structure/my_sitemaps1.xml svetainės schema: https://example.com/site_structure/my_sitemaps2.xml

Ši direktyva yra sankryžinė, tai reiškia, kad ją naudoja robotas, nepaisant jo vietos robots.txt faile.

Robotas prisimena kelią į jūsų failą, apdoroja jūsų duomenis ir naudoja rezultatus kito apsilankymo jūsų svetainėje metu.

Nuskaitymo delsos direktyva

Jei serveris yra perkrautas ir neįmanoma apdoroti atsisiuntimo užklausų, naudokite tikrinimo delsos direktyvą Galite nurodyti minimalų intervalą (sekundėmis), kurį paieškos robotas turi laukti atsisiuntus vieną puslapį, prieš pradėdamas atsisiųsti kitą.

Norėdami išlaikyti suderinamumą su robotais, kurie apdorojant robots.txt gali nukrypti nuo standarto, pridėkite nuskaitymo delsos direktyvą prie grupės, kuri prasideda naudotojo agento įrašu iškart po direktyvų Neleisti ir Leisti.

„Yandex“ paieškos robotas palaiko trupmenines „Call-Delay“ vertes, tokias kaip „0,5“. Tai nereiškia, kad paieškos robotas jūsų svetainę pasieks kas pusę sekundės, tačiau tai gali pagreitinti svetainės apdorojimą.

Vartotojo priemonė: „Yandex“ tikrinimo delsa: 2 # nustato 2 sekundžių skirtąjį laiką Vartotojo priemonė: * Disallow: /search Tikrinimo delsa: 4,5 # nustato 4,5 sekundžių skirtąjį laiką

„Clean-param“ direktyva

Jei jūsų svetainės puslapių adresuose yra dinaminių parametrų, kurie neturi įtakos turiniui (pavyzdžiui, seansų identifikatoriai, naudotojai, persiuntimo URL ir pan.), galite juos apibūdinti naudodami direktyvą „Clean-param“.

„Yandex“ robotas naudoja šią informaciją, kad išvengtų pasikartojančios informacijos įkėlimo. Tai pagerina roboto efektyvumą ir sumažina serverio apkrovą.

Pavyzdžiui, jūsų svetainėje yra šie puslapiai:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_ 123

Ref parametras naudojamas tik stebėti, iš kurio šaltinio buvo išsiųsta užklausa. Tai nekeičia puslapio turinio. Visi trys URL rodys tą patį puslapį su book_id=123. Tada, jei nurodysite direktyvą taip:

Vartotojo agentas: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

„Yandex“ robotas sujungs visus puslapių adresus į vieną:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Jei svetainėje yra puslapis be parametrų:

www.example.com/some_dir/get_book.pl?book_id=123

visi kiti URL pakeičiami juo po to, kai robotas jį indeksuoja. Kiti jūsų svetainės puslapiai bus tikrinami dažniau, nes nereikės atnaujinti puslapių:

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Direktyvos sintaksė

Išvalymo parametras: p0[&p1&p2&..&pn]

Pirmame lauke nurodykite parametrus, kurių reikia nepaisyti, atskirdami juos & simboliu. Antrame lauke nurodykite puslapių, kuriems turėtų būti taikoma taisyklė, kelio priešdėlį.

Priešdėlyje gali būti reguliarioji išraiška, kurios formatas panašus į naudojamą faile robots.txt, tačiau su tam tikrais apribojimais: galite naudoti tik simbolius A-Za-z0-9.-/*_ . Tačiau * interpretuojamas taip pat kaip robots.txt . A * visada netiesiogiai pridedamas priešdėlio gale. Pavyzdžiui:

Švarus parametras: s /forum/showthread.php

reiškia, kad parametras s nepaisomas visuose URL, kurie prasideda /forum/showthread.php . Antrasis laukas yra neprivalomas, ir šiuo atveju taisyklė bus taikoma visiems svetainės puslapiams. Skiriasi didžiosios ir mažosios raidės. Maksimalus taisyklės ilgis yra 500 simbolių. Pavyzdžiui:

Išvalymo parametras: abc /forum/showthread.php Valymo parametras: sid&rūšiuoti /forum/*.php Išvalymo parametras: someTrash&otherTrash

Papildomi pavyzdžiai

#dėl adresų, tokių kaip:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a User: # User: #x-ro. agentas: Yandex Disallow: Clean-param: s /forum/showthread.php #dėl adresų, tokių kaip:www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php? 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt bus nurodyta: User-agent: Yandex Disallow: Clean-param: sid /index.php #jei yra keli iš šių parametrų:www.example1.com/forum_old.php ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt bus nurodyta: User-agent / Clean-agent::s-anreparalow: Y. */showthread.php #jei parametras naudojamas keliuose scenarijuose:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e71c4t=217443 robots.txt bus: Vartotojo priemonė: Yandex Disallow: Clean-param: s /forum/index.php Clean-param: s /forum/showthread.php

Kirilicos simbolių naudojimas

Kirilicos abėcėlės naudojimas neleidžiamas robots.txt faile ir HTTP serverio antraštėse.

Domeno vardams naudokite Punycode . Puslapių adresams naudokite tą pačią koduotę, kuri naudojama dabartinei svetainės struktūrai.

Failo robots.txt pavyzdys:

#Neteisingai: Vartotojo priemonė: „Yandex Disallow“: / krepšelis Svetainės schema: site.рф/sitemap.xml #Teisingai: Vartotojo priemonė: „Yandex Disallow“: /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 Svetainės schema: http://xn--80aswg.xn--p1ai/sitemap.xml

Papildoma informacija

„Yandex“ robotas palaiko tik šiame puslapyje nurodytas robots.txt direktyvas. Aukščiau aprašytos failų apdorojimo taisyklės yra pagrindinio standarto išplėtimas. Kiti robotai gali kitaip interpretuoti robots.txt turinį.

Rezultatai naudojant išplėstinį robots.txt formatą gali skirtis nuo rezultatų naudojant pagrindinį standartą, ypač:

User-agent: Yandex Allow: / Disallow: /# be plėtinių viskas buvo uždrausta, nes "Allow: /" buvo ignoruojamas, # su plėtiniais palaikoma, viskas leidžiama Vartotojo agentas: Yandex Disallow: /private*html # be plėtinių, " /private*html" buvo uždraustas, # su palaikomais plėtiniais, "/private*html", # "/private/test.html", "/private/html/test.aspx" ir tt taip pat yra draudžiami User- agentas: Yandex Disallow: /private$ # be plėtinių, "/private$" ir "/private$test" ir tt buvo uždrausti, # su palaikomais plėtiniais, draudžiama tik "/private" Vartotojo agentas: * Neleisti : / Vartotojo agentas: Yandex Leisti: / # be plėtinių, nes trūksta eilutės lūžio, # "Vartotojo agentas: Yandex" būtų nepaisoma # rezultatas būtų "Disallow: /", bet Yandex robotas # analizuoja eilutės, pagrįstos poeilu „User-agent:“. # Šiuo atveju Yandex roboto rezultatas yra "Allow: /" Vartotojo agentas: * Disallow: / # komentaras1... # komentaras2... # komentaras3... Vartotojo agentas: Yandex Leisti: / # tas pats kaip ir ankstesniame pavyzdyje (žr. aukščiau)

Pavyzdžiai naudojant išplėstinį robots.txt formatą:

Vartotojo agentas: Yandex Leisti: /archive Disallow: / # leidžia viską, kas yra "/archive"; likusi dalis yra draudžiama Vartotojo agentas: Yandex Leisti: /obsolete/private/*.html$ # leidžia HTML failus # kelyje "/obsolete/private/..." Neleisti: /*.php$ # draudžia viską "* .php“ svetainėjeDisallow: /*/private/ # draudžia visus antrinius kelius, kuriuose yra # „/private/“, bet aukščiau esantis „Allow“ paneigia # dalį draudimo Disallow: /*/old/*.zip$ # draudžia visus „*. zip" failai, kurių kelyje yra # "/old/" Vartotojo agentas: Yandex Disallow: /add.php?*user= # draudžia visus "add.php?" scenarijus su parinktimi „vartotojas“.

Formuodami robots.txt failą, turėtumėte nepamiršti, kad robotas nustato pagrįstą jo dydžio ribą. Jei failo dydis viršija 32 KB, robotas mano, kad leidžia viską, tai reiškia, kad jis interpretuojamas taip pat kaip.

Teisingai nustatę failą robots.txt pašalinsite galimų problemų, atsirandantis indeksavimo metu.

Visų pirma, svetainės savininkas turi galimybę apriboti paslaugų ir asmeninių išteklių skyrių indeksavimą. Kaip sukurti failą ir sukonfigūruoti jį įvairioms paieškos sistemoms, taip pat populiarioms TVS - kalbėsime šiame leidinyje.

Kam skirtas robots.txt failas?

Kaip galite spėti, šiame faile yra instrukcijos, skirtos paieškos robotams. Jis turi būti dedamas į šakninį katalogą, kad robotai pradėtų indeksuoti puslapį skaitydami robots.txt nurodytas sąlygas.

Taigi, failas nurodo robotams ieškoti, kuriuos svetainės katalogus leidžiama indeksuoti ir kuriems šis procesas netaikomas.

Atsižvelgiant į tai, kad failo buvimas neturi įtakos reitingavimo procesui, daugelyje svetainių nėra robots.txt. Bet tai tikrai ne teisingu keliu. Pažiūrėkime, kokius privalumus robots.txt suteikia ištekliui.

Galite uždrausti visą arba iš dalies indeksuoti išteklius ir apriboti paieškos robotų, kurie turės teisę atlikti indeksavimą, diapazoną. Galite visiškai apsaugoti išteklius nuo šio proceso (pavyzdžiui, kurdami ar rekonstruodami svetainę).

Be to, robotų failas riboja visų rūšių šlamšto robotų prieigą prie išteklių, kurių tikslas yra nuskaityti svetainę, ar nėra pašto adresus, kuris vėliau bus naudojamas šlamštui siųsti. Neapgalvokime, prie ko tai gali lemti – ir tai suprantama.

Nuo indeksavimo galite paslėpti ne paieškos sistemoms, o tam tikram vartotojų ratui skirtas svetainės skiltis, kuriose yra privačios ir kitos panašios informacijos.

Kaip sukurti tinkamą robots.txt

Tinkamus robotus galima lengvai parašyti rankiniu būdu, nesikreipiant į įvairių konstruktorių pagalbą. Procesas susijęs su reikiamų direktyvų įrašymu į įprastą bloknoto failą, kurį turite išsaugoti pavadinimu „robotai“ ir įkelti į savo išteklių šakninį katalogą. Vienai svetainei reikia vieno tokio failo. Jame gali būti instrukcijos visų susijusių paieškos sistemų paieškos robotams. Tai reiškia, kad nereikia kurti atskiro failo kiekvienai paieškos sistemai.

Kas turi būti parašyta faile? Privaloma naudoti dvi direktyvas: User-agent ir Disallow. Pirmasis nustato, kuriam robotui skirtas šis pranešimas, antrasis parodo, kurio puslapio ar išteklių katalogo indeksuoti draudžiama.

Norėdami nustatyti tas pačias taisykles visiems robotams, vietoj pavadinimo direktyvoje User-agent galite naudoti žvaigždutės simbolį.
Failas robots.txt šiuo atveju atrodys taip:

Beje, „Google“ kūrėjai žiniatinklio valdytojams ne kartą priminė, kad robots.txt failas neturėtų viršyti 500 KB. Tai tikrai sukels klaidų indeksuojant. Jei failą kuriate rankiniu būdu, tada „pasiekti“ tokį dydį, žinoma, nerealu. Tačiau kai kurios TVS, kurios automatiškai generuoja robots.txt turinį, gali jį gerokai apsunkinti.

Lengvai sukurkite failą bet kuriam paieškos varikliui

Jei bijote suklysti rašydami failą (arba tiesiog tingite tai daryti), reikalingų direktyvų sukūrimą galite patikėti konstruktoriui. Tai taip paprasta, kaip du kartus du, bet mes vis tiek trumpai paaiškinsime, kaip su juo dirbti.

Pirmame lauke yra ištekliaus adresas. Tik po to vartotojas turės galimybę pasirinkti paieškos sistemą, kuriai nustatytos šios taisyklės (galite pasirinkti kelias paieškos sistemas iš eilės). Tada turite nurodyti aplankus ir failus, prie kurių prieiga bus draudžiama, nurodyti svetainės veidrodžio adresą ir nurodyti išteklių žemėlapio vietą.

Kai užpildysite laukus, apatiniame laukelyje bus įvesti reikiami katalogai. Viskas, ką jums reikia padaryti, tai nukopijuoti juos į txt failą ir suteikti jam pavadinimą robotai.

Kaip patikrinti failo robots.txt efektyvumą

Norėdami išanalizuoti failo veiksmą „Yandex“, turėtumėte eiti į atitinkamą puslapį „Yandex.Webmaster“ skiltyje. Dialogo lange nurodykite svetainės pavadinimą ir spustelėkite mygtuką „atsisiųsti“.

Sistema analizuos robots.txt failą ir nurodys, ar paieškos robotas nuskaitys puslapius, kurių indeksuoti draudžiama. Jei kyla problemų, direktyvas galima redaguoti ir išbandyti tiesiogiai dialogo lange, tada nukopijuoti ir įklijuoti į robots.txt failą šakniniame kataloge.

Panašią paslaugą teikia Webmaster Tools paslauga iš Google paieškos variklio.

Kuriamas robots.txt, skirtas WordPress, Joomla ir Ucoz

Įvairios TVS, sulaukusios didelio populiarumo mūsų atvirose erdvėse, siūlo vartotojams savo robots.txt failų versijas (arba jų visai neturi). Dažnai šie failai yra pernelyg universalūs ir neatsižvelgia į vartotojo išteklių ypatybes arba turi daug reikšmingų trūkumų.

Galite pabandyti juos pakeisti rankiniu būdu (tai nėra labai efektyvu, jei trūksta žinių), arba galite pasinaudoti profesionalesnių kolegų patirtimi. Kaip sakoma, viskas jau padaryta prieš mus. Pavyzdžiui, robots.txt, skirtas „WordPress“, gali atrodyti taip:

Žinoma, eilutė www.site.ru turėtų būti pakeista vartotojo svetainės adresu.

Uždrausti indeksuoti šiuos robotus:

Visiems
Yandex
Google
Mail.ru
Rammleris
Bing
Yahoo

Pagrindinis svetainės domenas:

Skirtasis laikas tarp roboto perėjimo puslapiuose:
1 sekundė 5 sekundės 10 sekundžių 60 sekundžių

Eikime į svetainės žemėlapį, sitemap.xml:

Paruoštas robots.txt:

Išsaugokite duomenis faile „robots.txt“ ir nukopijuokite į svetainės šakninį aplanką.

Kam naudojamas įrankis „Robots.txt Generator“?

Paslaugų svetainė pristato jums įrankį „Robots.txt Generator“, su kuriuo per kelias sekundes galite sukurti robots.txt failą internete, taip pat nustatyti draudimą indeksuoti svetainės puslapius tam tikrose paieškos sistemose.

Kas yra robots.txt

Robots.txt yra failas, esantis svetainės šaknyje ir kuriame yra paieškos robotų instrukcijos. Apsilankę bet kuriame šaltinyje, robotai pradeda su juo susipažinti iš failo robots.txt - savotiškos „naudojimo instrukcijos“. Leidėjas nurodo šį failą kaip robotas turi sąveikauti su ištekliu. Pavyzdžiui, jame gali būti draudimas indeksuoti tam tikrus puslapius arba rekomendacija išlaikyti laiko intervalą tarp dokumentų išsaugojimo iš žiniatinklio serverio.

Įrankio galimybės

Žiniatinklio valdytojas gali uždrausti indeksuoti paieškos sistemų „Yandex“, „Google“, „Mail.ru“, „Rambler“, „Bing“ ar „Yahoo!“ robotus, taip pat nustatyti skirtąjį laiką tarp paieškos roboto perėjimų išteklių puslapiuose ir uždrausti indeksuoti pasirinktus puslapius. svetainę. Be to, specialioje eilutėje galite nurodyti paieškos robotams kelią į svetainės žemėlapį (sitemap.xml).

Užpildžius visus įrankio laukus ir spustelėjus mygtuką „Sukurti“, sistema automatiškai sugeneruos paieškos robotų failą, kurį turėsite įdėti į savo svetainės šaknies zoną.

Atkreipkite dėmesį, kad robots.txt failas negali būti naudojamas puslapiui paslėpti nuo paieškos rezultatų, nes į jį gali būti nukreipti kiti šaltiniai, o paieškos robotai vienaip ar kitaip jį indeksuos. Primename, kad norėdami užblokuoti puslapį paieškos rezultatuose, naudokite specialią „noindex“ žymą arba nustatykite slaptažodį.

Taip pat verta paminėti, kad naudodami Robots.txt generatoriaus įrankį sukursite tik patariamojo pobūdžio failą. Žinoma, robotai „klauso“ instrukcijų, kurias jiems palieka žiniatinklio valdytojai robots.txt faile, tačiau kartais jų nepaiso. Kodėl tai vyksta? Mat kiekvienas paieškos robotas turi savo nustatymus, pagal kuriuos interpretuoja iš robots.txt failo gautą informaciją.

Failas sitemap.xml ir tinkamas svetainės robots.txt yra du privalomi dokumentai, padedantys greitai ir visapusiškai indeksuoti visus būtinus žiniatinklio šaltinio puslapius, kuriuos atlieka paieškos robotai. Teisingas svetainių indeksavimas „Yandex“ ir „Google“ yra raktas į sėkmingą tinklaraščio reklamą paieškos sistemose.

Jau rašiau, kaip sukurti svetainės schemą XML formatu ir kodėl ji reikalinga. Dabar pakalbėkime apie tai, kaip sukurti tinkamą robots.txt failą „WordPress“ svetainei ir kodėl jis apskritai reikalingas. Išsami informacija informacijos apie šį failą galima gauti iš pačių „Yandex“ ir „Google“. Pereisiu prie esmės ir paliesiu pagrindinius „WordPress“ robots.txt nustatymus, kaip pavyzdį naudodamas savo failą.

Kodėl svetainei reikalingas failas robots.txt?

Standartas robots.txt pasirodė dar 1994 m. sausį. Nuskaitydami žiniatinklio išteklius, paieškos robotai pirmiausia ieško tekstinis failas robots.txt, esantį svetainės ar tinklaraščio šakniniame aplanke. Jos pagalba galime nurodyti tam tikras taisykles skirtingų paieškos sistemų robotams, pagal kurias jie indeksuos svetainę.

Teisingai nustatę robots.txt galėsite:

neįtraukti dublikatų ir įvairių nepageidaujamų puslapių iš indekso;
uždrausti indeksuoti puslapius, failus ir aplankus, kuriuos norime paslėpti;
paprastai atsisako indeksuoti kai kuriuos paieškos robotus (pavyzdžiui, Yahoo, siekiant paslėpti informaciją apie gaunamas nuorodas nuo konkurentų);
nurodykite pagrindinį svetainės veidrodį (su www arba be www);
nurodykite kelią į svetainės schemą sitemap.xml.

Kaip sukurti tinkamą robots.txt svetainei

Tam yra specialūs generatoriai ir papildiniai, tačiau geriau tai padaryti rankiniu būdu.

Jums tereikia sukurti įprastą tekstinį failą, pavadintą robots.txt, naudodami bet kurį teksto rengyklę (pvz., Notepad arba Notepad++) ir įkelti jį į savo prieglobą savo tinklaraščio šakniniame aplanke. Šiame faile turi būti parašytos tam tikros direktyvos, t.y. „Yandex“, „Google“ ir kt. robotų indeksavimo taisyklės.

Jei esate per daug tingus, kad su tuo vargintis, žemiau pateiksiu, mano požiūriu, tinkamo robots.txt, skirto WordPress, pavyzdį iš savo tinklaraščio. Jį galite naudoti pakeitę domeno pavadinimą trijose vietose.

Robots.txt kūrimo taisyklės ir direktyvos

Už sėkmingą optimizavimas paieškos sistemoms tinklaraštis, kurį reikia žinoti kai kurias robots.txt kūrimo taisykles:

Nebuvimas arba tuščias failas robots.txt reiškia, kad paieškos sistemoms leidžiama indeksuoti visą žiniatinklio išteklių turinį.
Robots.txt turėtų būti atidarytas adresu jūsų site.ru/robots.txt, suteikdamas robotui atsakymo kodą 200 OK ir ne daugiau kaip 32 KB. Failas, kurio nepavyksta atidaryti (pavyzdžiui, dėl 404 klaidos) arba yra didesnis, bus laikomas tinkamu.
Direktyvų skaičius faile neturi viršyti 1024. Vienos eilutės ilgis neturi viršyti 1024 simbolių.
Tinkamame robots.txt faile gali būti keli teiginiai, kurių kiekvienas turi prasidėti direktyva „User-agent“ ir turi būti bent viena „Disallow“ direktyva. Paprastai jie rašo instrukcijas robots.txt „Google“ ir visiems kitiems robotams bei atskirai „Yandex“.

Pagrindinės robots.txt direktyvos:

Vartotojo agentas – nurodo, kuriam paieškos robotui skirta instrukcija.

Simbolis „*“ reiškia, kad tai taikoma visiems robotams, pavyzdžiui:

Vartotojo agentas: *

Jei turime sukurti taisyklę robots.txt, skirtą Yandex, tada rašome:

Vartotojo agentas: „Yandex

Jei direktyva nurodyta konkrečiam robotui, į direktyvą User-agent: * ji neatsižvelgia.

Neleisti ir leisti – atitinkamai uždrausti ir leisti robotams indeksuoti nurodytus puslapius. Visi adresai turi būti nurodyti iš svetainės šaknies, t.y. pradedant nuo trečiojo pasvirojo brūkšnio. Pavyzdžiui:

Draudžiama visiems robotams indeksuoti visą svetainę:
Vartotojo agentas: *
Neleisti: /
„Yandex“ draudžiama indeksuoti visus puslapius, prasidedančius raide /wp-admin:
Vartotojo agentas: „Yandex
Neleisti: /wp-admin
Tuščia „Disallow“ direktyva leidžia indeksuoti viską ir yra panaši į „Allow“. Pavyzdžiui, aš leidžiu „Yandex“ indeksuoti visą svetainę:
Vartotojo agentas: „Yandex
Neleisti:
Ir atvirkščiai, visiems paieškos robotams uždrauju indeksuoti visus puslapius:
Vartotojo agentas: *
Leisti:
Leisti ir neleisti direktyvos iš to paties vartotojo agento bloko rūšiuojamos pagal URL priešdėlio ilgį ir vykdomos nuosekliai. Jei vienam svetainės puslapiui tinka kelios direktyvos, tada vykdoma paskutinė sąraše. Dabar jų rašymo tvarka nesvarbu, kada robotas naudoja direktyvas. Jei direktyvų priešdėliai yra vienodo ilgio, tada pirmiausia įvykdoma Allow. Šios taisyklės įsigaliojo 2012 m. kovo 8 d. Pavyzdžiui, ji leidžia indeksuoti tik puslapius, prasidedančius raide /wp-includes:
Vartotojo agentas: „Yandex
Neleisti: /
Leisti: /wp-includes

Svetainės schema – nurodo XML svetainės schemos adresą. Viena svetainė gali turėti kelias svetainės schemos direktyvas, kurios gali būti įdėtos. Visi svetainės schemos failų adresai turi būti nurodyti robots.txt, kad būtų pagreitintas svetainės indeksavimas:

Svetainės schema: http://site/sitemap.xml.gz
Svetainės schema: http://site/sitemap.xml

Priegloba – nurodo veidrodiniam robotui, kurį svetainės veidrodį laikyti pagrindiniu.

Jei svetainė pasiekiama keliais adresais (pavyzdžiui, su www ir be www), sukuriami visi pasikartojantys puslapiai, kuriuos gali sugauti filtras. Be to, šiuo atveju indeksuojamas ne pagrindinis puslapis, o pagrindinis puslapis, priešingai, bus pašalintas iš indekso paieškos sistema. Norėdami to išvengti, naudokite pagrindinio kompiuterio direktyvą, kuri robots.txt faile skirta tik „Yandex“ ir gali būti tik viena. Jis parašytas po Neleisti ir Leisti ir atrodo taip:

Šeimininkas: svetainė

Crawl-delay – nustato delsą tarp puslapių atsisiuntimo sekundėmis. Naudojamas, jei yra didelė apkrova ir serveris neturi laiko apdoroti užklausų. Jaunose svetainėse geriau nenaudoti tikrinimo delsos direktyvos. Tai parašyta taip:

Vartotojo agentas: „Yandex
Nuskaitymo delsa: 4

"Clean-param" - palaiko tik "Yandex" ir yra naudojamas siekiant pašalinti pasikartojančius puslapius su kintamaisiais, sujungiant juos į vieną. Taigi, „Yandex“ robotas daug kartų neatsisiųs panašių puslapių, pavyzdžiui, susijusių su nukreipimo nuorodomis. Aš dar nenaudojau šios direktyvos, bet robots.txt žinyne, skirta Yandex, sekite nuorodą straipsnio pradžioje, galite išsamiai perskaityti šią direktyvą.

Specialieji simboliai * ir $ naudojami robots.txt, norint nurodyti direktyvų Neleisti ir Leisti kelius:

Specialusis simbolis „*“ reiškia bet kokią simbolių seką. Pavyzdžiui, Disallow: /*?* reiškia draudimą bet kuriuose puslapiuose, kurių adresas yra „?“, neatsižvelgiant į tai, kokie simboliai yra prieš ir po šio simbolio. Pagal numatytuosius nustatymus specialusis simbolis „*“ pridedamas prie kiekvienos taisyklės pabaigos, net jei jis konkrečiai nenurodytas.
Simbolis „$“ panaikina „*“ taisyklės pabaigoje ir reiškia griežtą atitikimą. Pavyzdžiui, direktyva Disallow: /*?$ uždraus indeksuoti puslapius, kurie baigiasi simboliu „?

„WordPress“ skirtas robots.txt pavyzdys

Štai mano „WordPress“ variklio tinklaraščio robots.txt failo pavyzdys:

Vartotojo priemonė: * Neleisti: /cgi-bin Neleisti: /wp-admin Neleisti: /wp-includes Neleisti: /wp-content/plugins Neleisti: /wp-content/cache Neleisti: /wp-content/themes Neleisti: / trackback Disallow: */trackback Disallow: */*/trackback Neleisti: /feed/ Neleisti: */*/feed/*/ Neleisti: */feed Disallow: /*?* Neleisti: /?s= Vartotojo agentas: Yandex Neleisti: /cgi-bin Neleisti: /wp-admin Neleisti: /wp-includes Neleisti: /wp-content/plugins Neleisti: /wp-content/cache Neleisti: /wp-content/themes Neleisti: /trackback Neleisti: */ trackback Disallow: */*/trackback Neleisti: /feed/ Neleisti: */*/feed/*/ Neleisti: */feed Disallow: /*?* Neleisti: /?.ru/sitemap.xml..xml

Kad neapgautumėte savęs kurdami tinkamą robots.txt, skirtą „WordPress“, galite naudoti šį failą. Su indeksavimu problemų nėra. Turiu apsaugos nuo kopijavimo scenarijų, tad bus patogiau parsisiųsti paruoštą robots.txt ir įkelti į savo hostingą. Tiesiog nepamirškite prieglobos ir svetainės schemos direktyvose pakeisti mano svetainės pavadinimą savo.

Naudingi papildymai, kaip tinkamai nustatyti failą robots.txt, skirtą „WordPress“.

Jei medžio komentarai yra įdiegti jūsų „WordPress“ tinklaraštyje, jie sukuria pasikartojančius formos ?replytocom= puslapius. Robots.txt tokie puslapiai uždaromi naudojant direktyvą Disallow: /*?*. Bet tai nėra sprendimas ir geriau panaikinti draudimus ir kovoti su replytocom kitu būdu. Ką,.

Taigi dabartinis robots.txt failas 2014 m. liepos mėn. atrodo taip:

Vartotojo priemonė: * Neleisti: /wp-includes Neleisti: /wp-feed Neleisti: /wp-content/plugins Neleisti: /wp-content/cache Disallow: /wp-content/themes Vartotojo agentas: Yandex Neleisti: /wp -Includes Disallow: /wp-feed Neleisti: /wp-content/plugins Neleisti: /wp-content/cache Neleisti: /wp-content/themes Priegloba: site.ru Vartotojo agentas: Googlebot-Image Allow: /wp-content /uploads/ Vartotojo priemonė: YandexImages Leisti: /wp-content/uploads/ Svetainės schema: http://site.ru/sitemap.xml

Jame papildomai nustatytos vaizdų indeksavimo robotų taisyklės.

Vartotojo agentas: Mediapartners-Google
Neleisti:

Jei planuojate reklamuoti kategorijų ar žymų puslapius, turėtumėte juos atidaryti robotams. Pavyzdžiui, tinklaraščio svetainėje kategorijos nėra uždaromos nuo indeksavimo, nes jose skelbiami tik nedideli straipsnių pranešimai, o tai yra gana nereikšminga turinio dubliavimo požiūriu. O jei tinklaraščio sklaidos kanale naudosite citatų rodymą, kurios užpildytos unikaliais pranešimais, tada dubliavimosi nebus.

Jei nenaudojate anksčiau pateikto papildinio, faile robots.txt galite nurodyti uždrausti žymų, kategorijų ir archyvų indeksavimą. Pavyzdžiui, pridedant šias eilutes:

Neleisti: /autorius/
Neleisti: /tag
Neleisti: /category/*/*
Neleisti: /20*

Nepamirškite patikrinti robots.txt failo Yandex.Webmaster skydelyje ir iš naujo įkelti jį į savo prieglobą.

Jei turite papildymų sukonfigūruodami robots.txt, parašykite apie tai komentaruose. Dabar žiūrėkite vaizdo įrašą apie tai, kas tai yra ir kaip sukurti tinkamą robots.txt svetainei, kaip uždrausti indeksavimą faile robots.txt ir ištaisyti klaidas.

Failas robots.txt yra jūsų svetainės šakniniame kataloge. Pavyzdžiui, svetainėje www.example.com robots.txt failo adresas atrodys taip: www.example.com/robots.txt. Failas robots.txt yra paprasto teksto failas, atitinkantis robotų išskyrimo standartą ir apimantis vieną ar daugiau taisyklių, kurių kiekviena neleidžia arba leidžia konkrečiam tikrintuvui pasiekti konkretų kelią svetainėje.

Štai pavyzdys paprastas failas robots.txt su dviem taisyklėmis. Žemiau pateikiami paaiškinimai.

# 1 grupės naudotojo priemonė: Googlebot Disallow: /nogooglebot/ # 2 grupės naudotojo priemonė: * Leisti: / Svetainės schema: http://www.example.com/sitemap.xml

Paaiškinimai

Naudotojo agentas, vadinamas Googlebot, neturėtų tikrinti katalogo http://example.com/nogooglebot/ ir jo pakatalogių.
Visi kiti vartotojų agentai turi prieigą prie visos svetainės (galima praleisti, rezultatas bus toks pat, nes visa prieiga suteikiama pagal numatytuosius nustatymus).
Svetainės schemos failasši svetainė yra adresu http://www.example.com/sitemap.xml.

Toliau pateikiami keli patarimai, kaip dirbti su robots.txt failais. Rekomenduojame išstudijuoti visą šių failų sintaksę, nes juos kuriant naudojamos sintaksės taisyklės nėra akivaizdžios ir jūs turite jas suprasti.

Formatas ir išdėstymas

Failą robots.txt galite sukurti beveik bet kurioje teksto redagavimo priemonėje, kuri palaiko UTF-8 kodavimą. Nenaudoti teksto rengyklės, nes jie dažnai išsaugo failus patentuotu formatu ir prideda netinkamų simbolių, pvz., garbanotų kabučių, kurių neatpažįsta paieškos robotai.

Kurdami ir testuodami robots.txt failus naudokite testavimo įrankį. Tai leidžia analizuoti failo sintaksę ir sužinoti, kaip ji veiks jūsų svetainėje.

Failo formato ir vietos taisyklės

Failas turi būti pavadintas robots.txt.
Svetainėje turėtų būti tik vienas toks failas.
Failas robots.txt turi būti įdėtas šakninis katalogas svetainę. Pavyzdžiui, norint valdyti visų svetainės http://www.example.com/ puslapių tikrinimą, failas robots.txt turi būti adresu http://www.example.com/robots.txt. Jis neturėtų būti pakatalogyje(pvz., adresu http://example.com/pages/robots.txt). Jei kyla sunkumų pasiekiant šakninį katalogą, susisiekite su prieglobos paslaugų teikėju. Jei neturite prieigos prie svetainės šakninio katalogo, naudokite alternatyvus metodas spynos, pvz., metažymos.
Failą robots.txt galima pridėti prie adresų su subdomenai(pavyzdžiui http:// svetainę.example.com/robots.txt) arba nestandartinius prievadus (pvz., http://example.com: 8181 /robotai.txt).
Bet koks tekstas po simbolio # laikomas komentaru.

Sintaksė

Failas robots.txt turi būti tekstinis failas, užkoduotas UTF-8 (įskaitant ASCII simbolių kodus). Kitų simbolių rinkinių naudoti negalima.
Failą robots.txt sudaro grupės.
Kiekvienas grupė gali būti keletas taisykles, po vieną eilutėje. Šios taisyklės taip pat vadinamos direktyvas.
Grupėje yra ši informacija:
- Į kurią vartotojo agentas Galioja grupės nurodymai.
- turėti prieigą.
- Kokius katalogus ar failus pasiekia šis agentas? nėra prieigos.
Grupės instrukcijos skaitomos iš viršaus į apačią. Robotas laikysis tik vienos grupės taisyklių su labiausiai ją atitinkančiu vartotojo agentu.
Pagal numatytuosius nustatymus manoma kad jei prieigos prie puslapio ar katalogo neužblokuoja taisyklė Disallow:, vartotojo agentas gali jį apdoroti.
Taisyklės didžiosios ir mažosios raidės. Taigi taisyklė Disallow: /file.asp taikoma URL http://www.example.com/file.asp, bet ne http://www.example.com/File.asp.

Robots.txt failuose naudojamos direktyvos

Vartotojo agentas: Privaloma direktyva, grupėje jų gali būti keli. Nustato, kuris paieškos variklis robotas turi galioti taisyklės. Kiekviena grupė prasideda šia eilute. Daugumą su Google Robots susijusių vartotojų agentų galima rasti specialiame sąraše ir Interneto robotų duomenų bazėje. Pakaitos simbolis * palaikomas norint nurodyti kelio priešdėlį, galūnę arba visą kelią. Naudokite ženklą *, kaip parodyta toliau pateiktame pavyzdyje, kad užblokuotumėte prieigą prie visų tikrintuvų ( išskyrus AdsBot robotus, kuris turi būti nurodytas atskirai). Rekomenduojame susipažinti su Google robotų sąrašu. Pavyzdžiai:# 1 pavyzdys. Prieigos blokavimas tik prie Googlebot naudotojo priemonės: Googlebot Disallow: / # 2 pavyzdys. Prieigos prie Googlebot ir AdsBot robotų blokavimas User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # 3 pavyzdys. Prieigos blokavimas visi robotai , išskyrus „AdsBot User-agent“: * Neleisti: /
Neleisti: . Nurodo į katalogą arba puslapį, susijusį su šakniniu domenu, kurio negali patikrinti anksčiau apibrėžta vartotojo priemonė. Jei tai puslapis, turi būti nurodytas visas jo kelias, kaip ir naršyklės adreso juostoje. Jei tai katalogas, kelias turi baigtis pasviruoju brūkšniu (/). Pakaitos simbolis * palaikomas norint nurodyti kelio priešdėlį, galūnę arba visą kelią.
Leisti: Kiekvienoje grupėje turi būti bent viena „Disallow:“ arba „Allow:“ direktyva. Nurodo į katalogą arba puslapį, susijusį su šakniniu domenu, kurį gali patikrinti anksčiau apibrėžta vartotojo priemonė. Naudojamas norint nepaisyti direktyvos Neleisti ir leisti nuskaityti pakatalogio arba puslapio kataloge, kuris yra uždarytas nuskaityti. Jei tai puslapis, turi būti nurodytas visas jo kelias, kaip ir naršyklės adreso juostoje. Jei tai katalogas, kelias turi baigtis pasviruoju brūkšniu (/). Pakaitos simbolis * palaikomas norint nurodyti kelio priešdėlį, galūnę arba visą kelią.
Svetainės schema: Neprivaloma direktyva faile gali būti keli arba jų nėra. Nurodo šioje svetainėje naudojamos svetainės schemos vietą. URL turi būti baigtas. „Google“ neapdoroja ir nepatvirtina URL variantų su http ir https priešdėliais arba su www elementu arba be jo. Svetainių schemos pasakykite „Google“, koks turinys reikia nuskaityti ir kaip jį atskirti nuo turinio Gali arba tai draudžiama nuskaityti. Pavyzdys: Svetainės schema: https://example.com/sitemap.xml Svetainės schema: http://www.example.com/sitemap.xml

Kitų taisyklių nepaisoma.

Kitas pavyzdys

Failą robots.txt sudaro grupės. Kiekvienas iš jų prasideda naudotojo agento eilute, kuri apibrėžia robotą, kuris turi laikytis taisyklių. Žemiau pateikiamas failo su dviem grupėmis pavyzdys ir abiejų aiškinamieji komentarai.

# Blokuokite „Googlebot“ prieigą prie example.com/directory1/... ir example.com/directory2/... #, bet leiskite prieigą prie directory2/subdirectory1/... # Prieiga prie visų kitų katalogų leidžiama pagal numatytuosius nustatymus. Vartotojo agentas: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Blokuokite prieigą prie visos svetainės kitam paieškos varikliui. Vartotojo agentas: othercrawler Neleisti: /

Visa robots.txt failo sintaksė

Visa sintaksė aprašyta šiame straipsnyje. Rekomenduojame su juo susipažinti, nes failo robots.txt sintaksėje yra keletas svarbių niuansų.

Naudingos taisyklės

Štai keletas bendrų robots.txt failo taisyklių:

Taisyklė	Pavyzdys
Draudimas nuskaityti visą svetainę. Atminkite, kad kai kuriais atvejais svetainių URL gali būti indekse, net jei jie nebuvo patikrinti. Atkreipkite dėmesį, kad ši taisyklė netaikoma AdsBot robotams, kurie turi būti nurodyti atskirai.	Vartotojo agentas: * Neleisti: /
Kad būtų išvengta katalogo ir viso jo turinio nuskaitymo, po katalogo pavadinimo įdėkite pasvirąjį brūkšnį. Nenaudokite robots.txt apsaugai konfidencialią informaciją! Šiems tikslams turėtų būti naudojamas autentifikavimas. URL, kurių negali tikrinti failas robots.txt, gali būti indeksuojami, o failo robots.txt turinį gali peržiūrėti bet kuris vartotojas ir taip atskleisti failų su neskelbtina informacija vietą.	Vartotojo agentas: * Neleisti: /calendar/ Disallow: /junk/
Leisti tikrinti tik vienam tikrintuvui	Vartotojo priemonė: Googlebot-news Leisti: / Vartotojo priemonė: * Neleisti: /
Leisti tikrinti visus tikrintuvus, išskyrus vieną	Vartotojo priemonė: Nereikalingasbotas Neleisti: / Vartotojo agentas: * Leisti: /
Kad konkretus puslapis nebūtų tikrinamas, nurodykite šį puslapį po pasvirojo brūkšnio.	Vartotojo agentas: * Neleisti: /private_file.html
Norėdami paslėpti konkretų vaizdą nuo „Google“ vaizdų roboto	Vartotojo priemonė: Googlebot-Image Disallow: /images/dogs.jpg
Norėdami paslėpti visus savo svetainės vaizdus nuo „Google“ vaizdų roboto	Vartotojo agentas: Googlebot-Image Disallow: /
Kad nebūtų nuskaityti visi tam tikro tipo failai(V šiuo atveju GIF)	Vartotojo priemonė: Googlebot Disallow: /*.gif$
Norėdami blokuoti tam tikrus svetainės puslapius, bet vis tiek juose rodyti „AdSense“ skelbimus, naudokite taisyklę Neleisti visiems robotams, išskyrus Mediapartners-Google. Dėl to šis robotas galės pasiekti puslapius, pašalintus iš paieškos rezultatų, kad galėtų pasirinkti skelbimus, kuriuos rodyti konkrečiam vartotojui.	Vartotojo priemonė: * Neleisti: / Vartotojo priemonė: Mediapartners-Google Leisti: /
Norėdami nurodyti URL, kuris baigiasi tam tikras fragmentas , naudokite simbolį $. Pavyzdžiui, URL, kurie baigiasi .xls, naudokite šį kodą:	Vartotojo priemonė: Googlebot Disallow: /*.xls$

Ar ši informacija buvo naudinga?

Kaip galima patobulinti šį straipsnį?