Kā konfigurēt robotu txt. Ieteikumi robotu txt faila iestatīšanai

Sākums / Operētājsistēmas

Robots.txt ir teksta fails, kurā ir vietnes indeksēšanas parametri meklētājprogrammu robotiem.

Kā iestatīt failu robots.txt

Teksta redaktorā izveidojiet failu ar nosaukumu robots.txt un aizpildiet to, izmantojot tālāk norādītās vadlīnijas.

Pārbaudiet failu pakalpojumā Yandex.Webmaster (izvēlnē Robots.txt analīze).

Augšupielādējiet failu savas vietnes saknes direktorijā.

Lietotāja aģenta direktīva

YandexMedia - Indeksē multivides datus.

Ja konkrētam robotam ir direktīvas, direktīvas User-agent: Yahoo un User-agent: * netiek izmantotas.

Lietotāja aģents: YandexBot # izmantos tikai galvenais indeksēšanas robots Disallow: /*id= User-agent: Yandex # izmantos visi Yandex roboti Disallow: /*sid= # izņemot galveno indeksēšanas robotu User-agent : * # neizmantos Yandex roboti Disallow: /cgi-bin

Atļaut un atļaut direktīvas

Lai aizliegtu robotam piekļūt jūsu vietnei vai noteiktām tās sadaļām, izmantojiet direktīvu Disallow.

Lietotāja aģents: YandexDisallow: / # bloķē piekļuvi visai vietnei Lietotāja aģents: YandexDisallow: /cgi-bin # bloķē piekļuvi lapām # sākas ar "/cgi-bin"

Saskaņā ar standartu pirms katras lietotāja aģenta direktīvas ir jāievieto tukša rinda.

# varonis veido komentārus. Viss, kas seko šim rakstzīmei, līdz pirmajai rindiņas pārtraukumam, netiek ņemts vērā.

Izmantojiet direktīvu Atļaut, lai ļautu robotam piekļūt noteiktām vietnes daļām vai visai vietnei.

Lietotāja aģents: Yandex Atļaut: /cgi-bin Disallow: / # aizliedz lejupielādēt jebko, izņemot lapas #, kas sākas ar "/cgi-bin"

Piezīme.

Starp direktīvām User-agent , Disallow un Allow nav atļauti tukši rindiņu pārtraukumi.

Apvienojot direktīvas

# Avots robots.txt: User-agent: Yandex Allow: /catalog Disallow: / # Sakārtots robots.txt: User-agent: Yandex Disallow: / Allow: /catalog # ļauj lejupielādēt tikai lapas # sākas ar "/catalog" # Avots robots.txt: Lietotāja aģents: Yandex Atļaut: /Atļaut: /catalog/auto Neatļaut: /catalog # Kārtots robots.txt: Lietotāja aģents: Yandex Atļaut: / Neatļaut: /catalog Atļaut: /catalog/auto # aizliegumi lejupielādēt lapas sākas ar "/catalog", # bet ļauj lejupielādēt lapas, kas sākas ar "/catalog/auto".

Atļaut un Disallow direktīvas bez parametriem

Ja direktīvas nesatur parametrus, robots apstrādā datus šādi:

Lietotāja aģents: Yandex Disallow: # tāds pats kā Allow: / User-agent: Yandex Allow: robots neņem vērā #

Izmantojot īpašās rakstzīmes * un $

Varat izmantot speciālās rakstzīmes * un $, lai iestatītu regulāras izteiksmes, norādot ceļus direktīvām Allow un Disallow. Rakstzīme * norāda jebkuru rakstzīmju secību (vai nevienu). Piemēri:

Lietotāja aģents: Yandex Disallow: /cgi-bin/*.aspx # aizliegumi "/cgi-bin/example.aspx" # un "/cgi-bin/private/test.aspx" Disallow: /*private # aizliedz abus " /private", # un "/cgi-bin/private"

$varonis

Pēc noklusējuma rakstzīme * tiek pievienota katras kārtulas beigās, kas aprakstīta failā robots.txt. Piemērs:

Lietotāja aģents: Yandex Disallow: /cgi-bin* # bloķē piekļuvi lapām #, kas sākas ar "/cgi-bin"Disallow: /cgi-bin # tas pats

Lai atceltu * kārtulas beigās, izmantojiet rakstzīmi $, piemēram:

Lietotāja aģents: Yandex Disallow: /example$ # aizliedz "/example", # bet atļauj "/example.html" Lietotāja aģents: Yandex Disallow: /example # aizliedz gan "/example", gan # un "/example.html " Rakstzīme $"neaizliedz * beigās, tas ir: User-agent: Yandex Disallow: /example$ # aizliedz tikai "/example" Disallow: /example*$ # tieši tāds pats kā "Disallow: /example" # aizliedz gan /example.html, gan /example

Vietnes kartes direktīva

Ja izmantojat vietnes kartes failu, lai aprakstītu vietnes struktūru, norādiet ceļu uz failu kā vietnes kartes direktīvas parametru (ja jums ir vairāki faili, norādiet visus ceļus).

Lietotāja aģents: Yandex Allow: / vietnes karte: https://example.com/site_structure/my_sitemaps1.xml vietnes karte: https://example.com/site_structure/my_sitemaps2.xml

Direktīva ir krusteniska, kas nozīmē, ka robots to izmanto neatkarīgi no tā atrašanās vietas failā robots.txt .

Robots atceras ceļu uz jūsu failu, apstrādā jūsu datus un izmanto rezultātus nākamajā jūsu vietnes apmeklējumā.

Pārmeklēšanas aizkaves direktīva

Ja serveris ir pārslogots un nav iespējams apstrādāt lejupielādes pieprasījumus, izmantojiet rāpuļprogrammas aizkaves direktīvu. Varat norādīt minimālo intervālu (sekundēs), kas meklēšanas robotam jāgaida pēc vienas lapas lejupielādes, pirms sāk lejupielādēt citu.

Lai saglabātu saderību ar robotiem, kas, apstrādājot failu robots.txt , var atšķirties no standarta, pievienojiet rāpuļprogrammas aizkaves direktīvu grupai, kas sākas ar User-Agent ierakstu tieši aiz direktīvām Disallow un Allow.

Yandex meklēšanas robots atbalsta daļējas vērtības pārmeklēšanas aizkavei, piemēram, "0,5". Tas nenozīmē, ka meklēšanas robots piekļūs jūsu vietnei ik pēc pussekundes, taču tas var paātrināt vietnes apstrādi.

Lietotāja aģents: Yandex Crawl-delay: 2 # iestata 2 sekunžu taimautu Lietotāja aģents: * Disallow: /search Pārmeklēšanas aizkave: 4,5 # iestata 4,5 sekunžu taimautu

Clean-param direktīva

Ja jūsu vietnes lapu adresēs ir dinamiski parametri, kas neietekmē saturu (piemēram, sesiju identifikatori, lietotāji, novirzītāji un tā tālāk), varat tos aprakstīt, izmantojot Clean-param direktīvu.

Yandex robots izmanto šo informāciju, lai izvairītos no dublētās informācijas atkārtotas ielādes. Tas uzlabo robota efektivitāti un samazina servera slodzi.

Piemēram, jūsu vietnē ir šādas lapas:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id 123

Parametrs ref tiek izmantots tikai, lai izsekotu, no kura resursa pieprasījums tika nosūtīts. Tas nemaina lapas saturu. Ja norādāt direktīvu šādi:

Lietotāja aģents: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

Yandex robots apvienos visas lapu adreses vienā:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Ja vietnē ir pieejama lapa bez parametriem:

www.example.com/some_dir/get_book.pl?book_id=123

visi pārējie URL tiek aizstāti ar to pēc tam, kad robots to ir indeksējis. Citas jūsu vietnes lapas tiks pārmeklētas biežāk, jo lapas nebūs jāatjaunina:

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Direktīvas sintakse

Tīrīšanas parametrs: p0[&p1&p2&..&pn]

Pirmajā laukā uzskaitiet parametrus, kas nav jāņem vērā, atdalot tos ar & rakstzīmi. Otrajā laukā norādiet ceļa prefiksu lapām, uz kurām jāattiecas noteikumam.

Prefiksā var būt ietverta regulāra izteiksme tādā formātā, kāds ir līdzīgs failā robots.txt izmantotajam, taču ar dažiem ierobežojumiem: varat izmantot tikai rakstzīmes A-Za-z0-9.-/*_ . Tomēr * tiek interpretēts tāpat kā failā robots.txt . A * vienmēr tiek netieši pievienots prefiksa beigās. Piemēram:

Clean-param: s /forum/showthread.php

nozīmē, ka parametrs s netiek ņemts vērā visiem URL, kas sākas ar /forum/showthread.php . Otrais lauks nav obligāts, un šajā gadījumā noteikums attieksies uz visām vietnes lapām. Tas ir reģistrjutīgs. Noteikuma maksimālais garums ir 500 rakstzīmes. Piemēram:

Clean-param: abc /forum/showthread.php Clean-param: sid&kārtot /forum/*.php Clean-param: someTrash&otherTrash

Papildu piemēri

#adresēm, piemēram:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a User: ###Showthread.php?s=117a&t-robot aģents: Yandex Disallow: Clean-param: s /forum/showthread.php #adresēm, piemēram:www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php? 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt saturs: User-agent: Yandex Disallow: Clean-param: sid /index.php #ja ir vairāki no šiem parametriem:www.example1.com/forum_old.phs ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt saturs: User-agent / Clean-agent::um&f. */showthread.php #ja parametrs tiek izmantots vairākos skriptos:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e71c4t=1743a7428 robots.txt saturs: Lietotāja aģents: Yandex Disallow: Clean-param: s /forum/index.php Clean-param: s /forum/showthread.php

Kirilicas rakstzīmju izmantošana

Kirilicas alfabēta lietošana nav atļauta failā robots.txt un HTTP servera galvenēs.

Domēna nosaukumiem izmantojiet Punycode . Lapu adresēm izmantojiet to pašu kodējumu, kas tiek izmantots pašreizējai vietnes struktūrai.

Faila robots.txt piemērs:

#Incorrect: User-agent: Yandex Disallow: / cart Vietnes karte: site.рф/sitemap.xml #Pareizi: Lietotāja aģents: Yandex Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 Vietnes karte: http://xn--80aswg.xn--p1ai/sitemap.xml

Papildus informācija

Yandex robots atbalsta tikai šajā lapā norādītās robots.txt direktīvas. Iepriekš aprakstītie failu apstrādes noteikumi ir pamatstandarta paplašinājums. Citi roboti var interpretēt robots.txt saturu atšķirīgi.

Rezultāti, izmantojot paplašināto robots.txt formātu, var atšķirties no rezultātiem, kas izmanto pamata standartu, jo īpaši:

Lietotāja aģents: Yandex Allow: / Disallow: /# bez paplašinājumiem viss tika aizliegts, jo "Allow: /" tika ignorēts, # ar atbalstītiem paplašinājumiem, viss ir atļauts User-agent: Yandex Disallow: /private*html # bez paplašinājumiem, " /private*html" bija aizliegts, # ar atbalstītiem paplašinājumiem, "/private*html", # "/private/test.html", "/private/html/test.aspx" un tā tālāk ir aizliegtas arī User- aģents: Yandex Disallow: /private$ # bez atbalstītiem paplašinājumiem, "/private$" un "/private$test" un tā tālāk bija aizliegtas, # ar atbalstītiem paplašinājumiem, aizliegts ir tikai "/private" User-agent: * Disallow : / Lietotāja aģents: Yandex Atļaut: / # bez atbalstītiem paplašinājumiem, jo trūkst rindiņas pārtraukuma, # "User-agent: Yandex" tiktu ignorēts # rezultāts būtu "Disallow: /", bet Yandex robots # parsē virknes, kuru pamatā ir apakšvirkne "User-agent:". # Šajā gadījumā Yandex robota rezultāts ir "Allow: /" User-agent: * Disallow: / # komentārs1... # komentārs2... # komentārs3... Lietotāja aģents: Yandex Atļaut: / # pats tāpat kā iepriekšējā piemērā (skatīt iepriekš)

Piemēri, izmantojot paplašināto robots.txt formātu:

Lietotāja aģents: Yandex Atļaut: /archive Disallow: / # atļauj visu, kas satur "/archive"; pārējais ir aizliegts Lietotāja aģents: Yandex Atļaut: /obsolete/private/*.html$ # atļauj HTML failus # ceļā "/obsolete/private/..." Disallow: /*.php$ # aizliedz visu "* .php" vietnēDisallow: /*/private/ # aizliedz visus apakšceļus, kuros ir # "/private/", bet iepriekš norādītā Allow noliedz # daļu no aizlieguma Disallow: /*/old/*.zip$ # aizliedz visus "*. zip" faili, kuru ceļā ir # "/old/" Lietotāja aģents: Yandex Disallow: /add.php?*user= # aizliedz visu "add.php?" skripti ar opciju "lietotājs".

Veidojot failu robots.txt, jāpatur prātā, ka robots nosaka saprātīgu tā lieluma ierobežojumu. Ja faila lielums pārsniedz 32 KB, robots pieņem, ka atļauj visu, kas nozīmē, ka tas tiek interpretēts tāpat kā.

Pareizi iestatot failu robots.txt, tas tiks novērsts iespējamās problēmas, kas rodas indeksēšanas laikā.

Jo īpaši vietnes īpašniekam ir iespēja ierobežot pakalpojumu un resursa personīgo sadaļu indeksēšanu. Kā izveidot failu un konfigurēt to dažādām meklētājprogrammām, kā arī populārajām CMS - mēs runāsim šajā publikācijā.

Kam paredzēts fails robots.txt?

Kā jūs varētu nojaust, šajā failā ir instrukcijas, kas paredzētas meklēšanas robotiem. Tas ir jāievieto saknes direktorijā, lai robotprogrammatūra sāks indeksēt lapu, izlasot nosacījumus, kas norādīti failā robots.txt.

Tādējādi fails robotiem norāda, kuri vietnes direktoriji ir atļauti indeksācijai un kuri nav pakļauti šim procesam.

Ņemot vērā, ka faila klātbūtne neietekmē ranžēšanas procesu, daudzas vietnes nesatur robots.txt. Bet tas tā nav pareizais ceļš. Apskatīsim priekšrocības, ko robots.txt sniedz resursam.

Varat pilnībā vai daļēji aizliegt resursa indeksēšanu un ierobežot meklēšanas robotu loku, kuriem būs tiesības veikt indeksēšanu. Jūs varat pilnībā aizsargāt resursu no šī procesa (piemēram, veidojot vai rekonstruējot vietni).

Turklāt robotu fails ierobežo visu veidu surogātpasta robotu piekļuvi resursam, kuru mērķis ir skenēt vietni, lai noteiktu e-pasta adreses, kas pēc tam tiks izmantota surogātpasta sūtīšanai. Nekavēsimies pie tā, pie kā tas varētu novest, un tas ir saprotams.

Jūs varat paslēpt no indeksēšanas vietnes sadaļas, kas nav paredzētas meklētājprogrammām, bet gan noteiktam lietotāju lokam, sadaļas, kurās ir privāta un cita līdzīga informācija.

Kā izveidot pareizo robots.txt

Pareizos robotus var viegli uzrakstīt manuāli, neizmantojot dažādu konstruktoru palīdzību. Process ir saistīts ar nepieciešamo direktīvu ierakstīšanu parastā piezīmju grāmatiņas failā, kas pēc tam jāsaglabā ar nosaukumu “robots” un jāaugšupielādē sava resursa saknes direktorijā. Viens šāds fails ir nepieciešams vienai vietnei. Tajā var būt instrukcijas visu attiecīgo meklētājprogrammu meklēšanas robotiem. Tas ir, nav nepieciešams izveidot atsevišķu failu katrai meklētājprogrammai.

Kas jāieraksta failā? Ir obligāti jāizmanto divas direktīvas: User-agent un Disallow. Pirmais nosaka, kuram robotam šis ziņojums ir adresēts, otrais parāda, kuru lapu vai resursu direktoriju ir aizliegts indeksēt.

Lai iestatītu vienādus noteikumus visiem robotiem, lietotāja aģenta direktīvā nosaukuma vietā varat izmantot zvaigznītes simbolu.
Fails robots.txt šajā gadījumā izskatīsies šādi:

Starp citu, Google izstrādātāji tīmekļa pārziņiem vairākkārt atgādinājuši, ka faila robots.txt izmērs nedrīkst pārsniegt 500 KB. Tas noteikti radīs kļūdas indeksēšanas laikā. Ja failu izveidojat manuāli, tad šāda izmēra “sasniegšana”, protams, ir nereāla. Taču dažas SPS, kas automātiski ģenerē robots.txt saturu, var to ievērojami padarīt smagāku.

Ērti izveidojiet failu jebkurai meklētājprogrammai

Ja baidāties kļūdīties, rakstot failu (vai vienkārši esat pārāk slinks, lai to izdarītu), nepieciešamo direktīvu izveidi varat uzticēt konstruktoram. Tas ir tikpat vienkārši kā divreiz divi, taču mēs joprojām sniegsim īsu paskaidrojumu, kā ar to strādāt.

Pirmajā laukā ir resursa adrese. Tikai pēc tam lietotājam būs iespēja izvēlēties meklētājprogrammu, kurai ir iestatīti šie noteikumi (var izvēlēties vairākas meklētājprogrammas secīgi). Tālāk jums jānorāda mapes un faili, kuriem piekļuve būs aizliegta, jānorāda vietnes spoguļa adrese un jānorāda resursu kartes atrašanās vieta.

Aizpildot laukus, apakšējā laukā tiks ievadīti nepieciešamie direktoriji. Viss, kas jums jādara beigās, ir jāiekopē tie txt failā un jāpiešķir tam nosaukums roboti.

Kā pārbaudīt faila robots.txt efektivitāti

Lai analizētu faila darbību Yandex, jums jāiet uz atbilstošo lapu sadaļā Yandex.Webmaster. Dialoglodziņā norādiet vietnes nosaukumu un noklikšķiniet uz pogas “Lejupielādēt”.

Sistēma analizēs failu robots.txt un norādīs, vai meklēšanas robots pārmeklēs lapas, kurām ir aizliegts indeksēt. Ja rodas problēmas, direktīvas var rediģēt un pārbaudīt tieši dialoglodziņā, pēc tam nokopēt un ielīmēt failā robots.txt saknes direktorijā.

Līdzīgu pakalpojumu nodrošina Webmaster Tools pakalpojums no Google meklētājprogrammas.

Faila robots.txt izveide WordPress, Joomla un Ucoz

Dažādas CMS, kas ir guvušas plašu popularitāti mūsu atvērtajās vietās, piedāvā lietotājiem savas robots.txt failu versijas (vai arī to nav vispār). Bieži vien šie faili ir pārāk universāli un neņem vērā lietotāja resursa īpašības, vai arī tiem ir vairāki būtiski trūkumi.

Varat mēģināt tajās veikt izmaiņas manuāli (kas nav īpaši efektīvi, ja trūkst zināšanu), vai arī varat izmantot profesionālāku kolēģu pieredzi. Kā saka, viss jau ir izdarīts pirms mums. Piemēram, robots.txt programmai WordPress varētu izskatīties šādi:

Rinda www.site.ru, protams, jāaizstāj ar lietotāja vietnes adresi.

Aizliegt indeksēšanu šādiem robotiem:

Visiem
Yandex
Google
Mail.ru
Rammler
Bing
Yahoo

Galvenā vietnes domēns:

Taimauts starp robotu pārejām starp lapām:
1 sekunde 5 sekundes 10 sekundes 60 sekundes

Dosimies uz vietnes karti, sitemap.xml:

Gatavs robots.txt:

Saglabājiet datus failā "robots.txt" un kopējiet tos vietnes saknes mapē.

Kam tiek izmantots rīks "Robots.txt Generator"?

Pakalpojuma vietnē tiek piedāvāts rīks “Robots.txt Generator”, ar kuru dažu sekunžu laikā tiešsaistē var izveidot robots.txt failu, kā arī noteikt aizliegumu noteiktām meklētājprogrammām indeksēt vietnes lapas.

Kas ir robots.txt

Robots.txt ir fails, kas atrodas vietnes saknē un satur instrukcijas meklēšanas robotiem. Apmeklējot jebkuru resursu, roboti sāk ar to iepazīties no faila robots.txt - sava veida “lietošanas instrukcijas”. Izdevējs norāda šo failu kā robotam ir jāsadarbojas ar resursu. Piemēram, tas var ietvert aizliegumu indeksēt noteiktas lapas vai ieteikumu saglabāt laika intervālu starp dokumentu saglabāšanu no tīmekļa servera.

Rīku iespējas

Tīmekļa pārzinis var noteikt aizliegumu indeksēt meklētājprogrammu Yandex, Google, Mail.ru, Rambler, Bing vai Yahoo! robotus, kā arī iestatīt taimautu starp meklēšanas robotu pārejām resursu lapās un aizliegt atlasīto lapu indeksēšanu. vietne. Turklāt īpašā rindā varat norādīt robotu meklēšanas ceļu uz vietnes karti (sitemap.xml).

Kad esat aizpildījis visus rīka laukus un noklikšķinājis uz pogas “Izveidot”, sistēma automātiski ģenerēs failu meklēšanas robotiem, kas jums būs jāievieto jūsu vietnes saknes zonā.

Lūdzu, ņemiet vērā, ka failu robots.txt nevar izmantot, lai paslēptu lapu no meklēšanas rezultātiem, jo uz to var būt saistīti citi resursi, un meklēšanas roboti to vienā vai otrā veidā indeksēs. Atgādinām, ka, lai bloķētu lapu meklēšanas rezultātos, izmantojiet īpašu “noindex” tagu vai iestatiet paroli.

Ir arī vērts atzīmēt, ka, izmantojot rīku Robots.txt Generator, jūs izveidosit tīri konsultatīva rakstura failu. Protams, robotprogrammatūras “klausās” instrukcijās, ko tīmekļa pārziņi viņiem atstājuši failā robots.txt, taču dažreiz viņi tos ignorē. Kāpēc tas notiek? Jo katram meklēšanas robotam ir savi iestatījumi, pēc kuriem tas interpretē no faila robots.txt saņemto informāciju.

Fails sitemap.xml un pareizais vietnes robots.txt ir divi obligāti dokumenti, kas palīdz ātri un pilnībā indeksēt visas nepieciešamās tīmekļa resursa lapas, ko veic meklēšanas roboti. Pareiza vietņu indeksēšana Yandex un Google ir atslēga uz veiksmīgu emuāru reklamēšanu meklētājprogrammās.

Es jau rakstīju, kā izveidot vietnes karti XML formātā un kāpēc tā ir nepieciešama. Tagad parunāsim par to, kā izveidot pareizo robots.txt WordPress vietnei un kāpēc tas vispār ir vajadzīgs. Detalizēta informācija informāciju par šo failu var iegūt attiecīgi no Yandex un Google. Es ķeršos pie lietas būtības un pieskaršos robots.txt pamata iestatījumiem WordPress, izmantojot savu failu kā piemēru.

Kāpēc vietnei ir nepieciešams fails robots.txt?

Standarts robots.txt parādījās 1994. gada janvārī. Skenējot tīmekļa resursu, meklēšanas roboti vispirms meklē teksta fails robots.txt, kas atrodas vietnes vai emuāra saknes mapē. Ar tās palīdzību mēs varam norādīt noteiktus noteikumus dažādu meklētājprogrammu robotiem, pēc kuriem viņi indeksēs vietni.

Pareizi iestatot failu robots.txt, varēsiet:

izslēgt no indeksa dublikātus un dažādas nevēlamās lapas;
aizliegt indeksēt lapas, failus un mapes, kuras vēlamies paslēpt;
parasti atsakās indeksēt dažus meklēšanas robotus (piemēram, Yahoo, lai paslēptu informāciju par konkurentu ienākošajām saitēm);
norādiet vietnes galveno spoguli (ar www vai bez www);
norādiet ceļu uz vietnes karti sitemap.xml.

Kā izveidot vietnei pareizo robots.txt

Šim nolūkam ir īpaši ģeneratori un spraudņi, taču labāk to darīt manuāli.

Jums vienkārši ir jāizveido parasts teksta fails ar nosaukumu robots.txt, izmantojot jebkuru teksta redaktoru (piemēram, Notepad vai Notepad++) un jāaugšupielādē tas savā mitināšanā sava emuāra saknes mapē. Šajā failā ir jāraksta noteiktas direktīvas, t.i. indeksēšanas noteikumi Yandex, Google utt. robotiem.

Ja esat pārāk slinks, lai ar to nodarbotos, tālāk es sniegšu piemēru no mana viedokļa par pareizo robots.txt failu WordPress no sava emuāra. Varat to izmantot, aizstājot domēna nosaukumu trīs vietās.

Robots.txt izveides noteikumi un direktīvas

Par veiksmīgu meklētājprogrammu optimizācija emuārā ir jāzina daži robots.txt izveides noteikumi:

Prombūtne vai tukšs fails robots.txt nozīmēs, ka meklētājprogrammām ir atļauts indeksēt visu tīmekļa resursa saturu.
Fails robots.txt ir jāatver adresē jūsu site.ru/robots.txt, norādot robotam atbildes kodu 200 OK, un tā izmērs nedrīkst pārsniegt 32 KB. Fails, kuru neizdodas atvērt (piemēram, kļūdas 404 dēļ) vai ir lielāks, tiks uzskatīts par labu.
Direktīvu skaits failā nedrīkst pārsniegt 1024. Vienas rindas garums nedrīkst pārsniegt 1024 rakstzīmes.
Derīgam robots.txt failam var būt vairāki priekšraksti, no kuriem katram jāsākas ar User-agent direktīvu un jāsatur vismaz viena Disallow direktīva. Parasti viņi raksta instrukcijas failā robots.txt Google un visiem citiem robotiem un atsevišķi Yandex.

Pamata robots.txt direktīvas:

Lietotāja aģents – norāda, kuram meklēšanas robotam instrukcija ir adresēta.

Simbols “*” nozīmē, ka tas attiecas uz visiem robotiem, piemēram:

Lietotāja aģents: *

Ja mums ir jāizveido kārtula failā robots.txt Yandex, mēs rakstām:

Lietotāja aģents: Yandex

Ja konkrētam robotam ir norādīta direktīva, tā neņem vērā direktīvu User-agent: *.

Neatļaut un Atļaut – attiecīgi aizliedz un ļauj robotiem indeksēt norādītās lapas. Visas adreses jānorāda no vietnes saknes, t.i. sākot no trešās slīpsvītras. Piemēram:

Aizliegums visiem robotiem indeksēt visu vietni:
Lietotāja aģents: *
Neatļaut: /
Yandex ir aizliegts indeksēt visas lapas, kas sākas ar /wp-admin:
Lietotāja aģents: Yandex
Neatļaut: /wp-admin
Tukša Disallow direktīva ļauj indeksēt visu un ir līdzīga Atļaut. Piemēram, es atļauju Yandex indeksēt visu vietni:
Lietotāja aģents: Yandex
Neatļaut:
Un otrādi, es aizliedzu visiem meklēšanas robotiem indeksēt visas lapas:
Lietotāja aģents: *
Atļaut:
Atļaut un aizliegt direktīvas no viena un tā paša lietotāja aģenta bloka tiek kārtotas pēc URL prefiksa garuma un tiek izpildītas secīgi. Ja vienai vietnes lapai ir piemērotas vairākas direktīvas, tad tiek izpildīta pēdējā sarakstā. Tagad to rakstīšanas secībai nav nozīmes, kad robots izmanto direktīvas. Ja direktīvām ir vienāda garuma prefiksi, vispirms tiek izpildīts Allow. Šie noteikumi stājās spēkā 2012.gada 8.martā. Piemēram, tas ļauj indeksēt tikai lapas, kas sākas ar /wp-includes:
Lietotāja aģents: Yandex
Neatļaut: /
Atļaut: /wp-includes

Vietnes karte — norāda XML vietnes kartes adresi. Vienai vietnei var būt vairākas vietnes kartes direktīvas, kuras var ligzdot. Lai paātrinātu vietņu indeksēšanu, failā robots.txt ir jānorāda visas vietnes kartes failu adreses:

Vietnes karte: http://site/sitemap.xml.gz
Vietnes karte: http://site/sitemap.xml

Host — norāda spoguļrobotam, kuru vietnes spoguli uzskatīt par galveno.

Ja vietne ir pieejama vairākās adresēs (piemēram, ar www un bez www), tad tiek izveidotas pilnīgas dublētās lapas, kuras var uztvert filtrs. Arī šajā gadījumā tā var nebūt galvenā lapa, kas tiek indeksēta, bet galvenā lapa, gluži pretēji, tiks izslēgta no rādītāja meklētājprogramma. Lai to novērstu, izmantojiet direktīvu Host, kas failā robots.txt ir paredzēta tikai Yandex, un tā var būt tikai viena. Tas ir rakstīts aiz Neatļaut un Atļaut un izskatās šādi:

Saimnieks: vietne

Crawl-delay — iestata aizkavi starp lapu lejupielādes sekundēm. Izmanto, ja ir liela slodze un serverim nav laika apstrādāt pieprasījumus. Jaunās vietnēs labāk neizmantot rāpuļprogrammas aizkaves direktīvu. Tas ir rakstīts šādi:

Lietotāja aģents: Yandex
Pārmeklēšanas aizkave: 4

Clean-param - atbalsta tikai Yandex, un to izmanto, lai novērstu dublētās lapas ar mainīgajiem, apvienojot tās vienā. Tādējādi Yandex robots daudzas reizes nelejupielādēs līdzīgas lapas, piemēram, tās, kas saistītas ar novirzīšanas saitēm. Es vēl neesmu izmantojis šo direktīvu, bet Yandex palīdzībā par robots.txt, sekojiet saitei raksta sākumā, jūs varat izlasīt šo direktīvu detalizēti.

Speciālās rakstzīmes * un $ tiek izmantotas failā robots.txt, lai norādītu direktīvu Disallow un Allow ceļus:

Īpašā rakstzīme “*” nozīmē jebkuru rakstzīmju secību. Piemēram, Disallow: /*?* nozīmē aizliegumu jebkurām lapām, kurās adresē parādās “?”, neatkarīgi no tā, kādas rakstzīmes ir pirms un pēc šīs rakstzīmes. Pēc noklusējuma katra noteikuma beigās tiek pievienota īpašā rakstzīme “*”, pat ja tā nav īpaši norādīta.
Simbols “$” atceļ “*” kārtulas beigās un nozīmē stingru atbilstību. Piemēram, direktīva Disallow: /*?$ aizliedz indeksēt lapas, kas beidzas ar rakstzīmi “?”.

Faila robots.txt piemērs vietnei WordPress

Šeit ir mana faila robots.txt piemērs emuāram WordPress programmā:

Lietotāja aģents: * Disallow: /cgi-bin Neatļaut: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Neatļaut: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= Lietotāja aģents: Yandex Disallow: /cgi-bin Neatļaut: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Neatļaut: /trackback Neatļaut: */ Trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Lai nemaldinātu sevi, izveidojot pareizo robots.txt failam WordPress, varat izmantot šo failu. Ar indeksēšanu nav problēmu. Man ir kopēšanas aizsardzības skripts, tāpēc ērtāk būs lejupielādēt gatavu robots.txt un augšupielādēt to savā hostingā. Vienkārši neaizmirstiet resursdatora un vietnes kartes direktīvās aizstāt manas vietnes nosaukumu ar savu.

Noderīgi papildinājumi, lai pareizi iestatītu failu robots.txt darbam ar WordPress

Ja jūsu WordPress emuārā ir instalēti koku komentāri, tie veido lapas dublikātus formā ?replytocom= . Vietnē robots.txt šādas lapas tiek aizvērtas ar direktīvu Disallow: /*?*. Bet tas nav risinājums, un labāk ir noņemt aizliegumus un cīnīties ar replytocom citā veidā. Kas,.

Tādējādi pašreizējais robots.txt fails 2014. gada jūlijā izskatās šādi:

Lietotāja aģents: * Disallow: /wp-includes Disallow: /wp-feed Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Lietotāja aģents: Yandex Disallow: /wp -includes Disallow: /wp-feed Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Host: site.ru Lietotāja aģents: Googlebot-Image Allow: /wp-content /uploads/ Lietotāja aģents: YandexImages Atļaut: /wp-content/uploads/ Vietnes karte: http://site.ru/sitemap.xml

Tajā papildus ir izklāstīti attēlu indeksēšanas robotu noteikumi.

Lietotāja aģents: Mediapartners-Google
Neatļaut:

Ja plānojat reklamēt kategoriju vai tagu lapas, atveriet tās robotiem. Piemēram, emuāra vietnē kategorijas netiek slēgtas no indeksēšanas, jo tajās tiek publicēti tikai nelieli rakstu paziņojumi, kas satura dublēšanas ziņā ir diezgan nenozīmīgi. Un, ja izmantojat citātu attēlošanu emuāra plūsmā, kas ir piepildīti ar unikāliem paziņojumiem, tad dublēšanās nebūs vispār.

Ja neizmantojat iepriekš minēto spraudni, failā robots.txt varat norādīt, lai aizliegtu tagu, kategoriju un arhīvu indeksēšanu. Piemēram, pievienojot šādas rindas:

Neatļaut: /autors/
Neatļaut: /tag
Neatļaut: /category/*/*
Neatļaut: /20*

Neaizmirstiet pārbaudīt failu robots.txt panelī Yandex.Webmaster un pēc tam atkārtoti augšupielādēt to savā mitināšanā.

Ja jums ir kādi papildinājumi robots.txt konfigurēšanai, rakstiet par to komentāros. Tagad noskatieties video par to, kas tas ir un kā izveidot vietnei pareizo robots.txt, kā aizliegt indeksēšanu failā robots.txt un labot kļūdas.

Fails robots.txt atrodas jūsu vietnes saknes direktorijā. Piemēram, vietnē www.example.com faila robots.txt adrese izskatīsies šādi: www.example.com/robots.txt. Fails robots.txt ir vienkārša teksta fails, kas atbilst robotu izslēgšanas standartam un ietver vienu vai vairākus noteikumus, no kuriem katrs liedz vai ļauj konkrētai rāpuļprogrammai piekļūt konkrētam vietnes ceļam.

Šeit ir piemērs vienkāršs fails robots.txt ar diviem noteikumiem. Zemāk ir paskaidrojumi.

# 1. grupas lietotāja aģents: Googlebot Disallow: /nogooglebot/ # 2. grupas lietotāja aģents: * Atļaut: / Vietnes karte: http://www.example.com/sitemap.xml

Paskaidrojumi

Lietotāja aģentam ar nosaukumu Googlebot nevajadzētu pārmeklēt direktoriju http://example.com/nogooglebot/ un tā apakšdirektorijus.
Visiem pārējiem lietotāju aģentiem ir piekļuve visai vietnei (var izlaist, rezultāts būs tāds pats, jo pēc noklusējuma tiek piešķirta pilna piekļuve).
Vietnes kartes failsšī vietne atrodas http://www.example.com/sitemap.xml.

Tālāk ir sniegti daži padomi darbam ar failiem robots.txt. Mēs iesakām izpētīt visu šo failu sintaksi, jo to izveidei izmantotie sintakses noteikumi nav acīmredzami un jums tie ir jāsaprot.

Formāts un izkārtojums

Failu robots.txt varat izveidot gandrīz jebkurā teksta redaktorā, kas atbalsta UTF-8 kodējumu. Nelietot tekstapstrādes programmas, jo tie bieži saglabā failus patentētā formātā un pievieno nederīgas rakstzīmes, piemēram, cirtainas pēdiņas, kuras meklēšanas roboti neatpazīst.

Veidojot un testējot robots.txt failus, izmantojiet testēšanas rīku. Tas ļauj analizēt faila sintaksi un uzzināt, kā tas darbosies jūsu vietnē.

Noteikumi par faila formātu un atrašanās vietu

Faila nosaukumam jābūt robots.txt.
Vietnē jābūt tikai vienam šādam failam.
Fails robots.txt ir jāievieto saknes direktoriju vietne. Piemēram, lai kontrolētu visu vietnes http://www.example.com/ lapu pārmeklēšanu, failam robots.txt jāatrodas vietnē http://www.example.com/robots.txt. Tam nevajadzētu atrasties apakšdirektorijā(piemēram, adresē http://example.com/pages/robots.txt). Ja jums ir grūtības piekļūt saknes direktorijam, sazinieties ar mitināšanas pakalpojumu sniedzēju. Ja jums nav piekļuves vietnes saknes direktorijam, izmantojiet alternatīva metode slēdzenes, piemēram, metatagus.
Failu robots.txt var pievienot adresēm ar apakšdomēni(piemēram, http:// tīmekļa vietne.example.com/robots.txt) vai nestandarta porti (piemēram, http://example.com: 8181 /robots.txt).
Jebkurš teksts pēc simbola # tiek uzskatīts par komentāru.

Sintakse

Failam robots.txt ir jābūt teksta failam, kas kodēts UTF-8 (kas ietver ASCII rakstzīmju kodus). Citas rakstzīmju kopas nevar izmantot.
Fails robots.txt sastāv no grupas.
Katrs grupai var saturēt vairākus noteikumiem, viens katrā rindā. Šos noteikumus sauc arī par direktīvas.
Grupa ietver šādu informāciju:
- Uz kuru lietotāja aģents Tiek piemēroti grupu norādījumi.
- ir piekļuve.
- Kuriem direktorijiem vai failiem šis aģents piekļūst? nav piekļuves.
Grupas instrukcijas tiek lasītas no augšas uz leju. Robots ievēros tikai vienas grupas noteikumus ar lietotāja aģentu, kas tai visvairāk atbilst.
Pēc noklusējuma tas tiek pieņemts Ja piekļuvi lapai vai direktorijam nebloķē kārtula Disallow:, lietotāja aģents var to apstrādāt.
Noteikumi reģistrjutīgs. Tādējādi noteikums Disallow: /file.asp attiecas uz URL http://www.example.com/file.asp, bet ne uz http://www.example.com/File.asp.

Robots.txt failos izmantotās direktīvas

Lietotāja aģents: Obligāta direktīva, grupā var būt vairāki tādi. Nosaka, kura meklētājprogramma robots ir jāpiemēro noteikumi. Katra grupa sākas ar šo līniju. Lielāko daļu ar Google Robots saistīto lietotāju aģentu var atrast īpašā sarakstā un interneta robotu datu bāzē. Tiek atbalstīta aizstājējzīme *, lai norādītu ceļa prefiksu, sufiksu vai visu ceļu. Izmantojiet zīmi *, kā parādīts zemāk esošajā piemērā, lai bloķētu piekļuvi visām rāpuļprogrammām ( izņemot AdsBot robotus, kas jānorāda atsevišķi). Mēs iesakām iepazīties ar Google robotu sarakstu. Piemēri:# 1. piemērs. Piekļuves bloķēšana tikai Googlebot lietotāja aģentam: Googlebot Disallow: / # 2. piemērs. Piekļuves bloķēšana Googlebot un AdsBot robotiem User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # 3. piemērs. Piekļuves bloķēšana visi roboti , izņemot AdsBot lietotāja aģentu: * Neatļaut: /
Neatļaut: . Norāda uz direktoriju vai lapu saistībā ar saknes domēnu, kuru nevar pārmeklēt iepriekš definētais lietotāja aģents. Ja šī ir lapa, ir jānorāda pilns ceļš uz to, tāpat kā pārlūkprogrammas adreses joslā. Ja tas ir direktorijs, ceļam jābeidzas ar slīpsvītru (/). Tiek atbalstīta aizstājējzīme *, lai norādītu ceļa prefiksu, sufiksu vai visu ceļu.
Atļaut: Katrā grupā ir jābūt vismaz vienai Disallow: vai Allow: direktīvai. Norāda uz direktoriju vai lapu saistībā ar saknes domēnu, kuru var pārmeklēt iepriekš definētais lietotāja aģents. Izmanto, lai ignorētu direktīvu Disallow un atļautu skenēt apakšdirektoriju vai lappusi direktorijā, kas ir aizvērts skenēšanai. Ja šī ir lapa, ir jānorāda pilns ceļš uz to, tāpat kā pārlūkprogrammas adreses joslā. Ja tas ir direktorijs, ceļam jābeidzas ar slīpsvītru (/). Tiek atbalstīta aizstājējzīme *, lai norādītu ceļa prefiksu, sufiksu vai visu ceļu.
Vietnes karte: Fakultatīvā direktīva var būt vairākas vai neviena no tām. Norāda šajā vietnē izmantotās vietnes kartes atrašanās vietu. URL ir jābūt pilnīgam. Google neapstrādā un neapstiprina URL variantus ar prefiksiem http un https vai ar vai bez elementa www. Vietņu kartes pastāstiet Google, kāds saturs vajag skenēt un kā to atšķirt no satura, kas Var vai tas ir aizliegts skenēt. Piemērs: Vietnes karte: https://example.com/sitemap.xml Vietnes karte: http://www.example.com/sitemap.xml

Citi noteikumi tiek ignorēti.

Vēl viens piemērs

Fails robots.txt sastāv no grupām. Katrs no tiem sākas ar rindiņu User-agent, kas definē robotu, kuram ir jāievēro noteikumi. Tālāk ir parādīts faila piemērs ar divām grupām un paskaidrojošiem komentāriem abām.

# Bloķējiet Googlebot piekļuvi example.com/directory1/... un example.com/directory2/... # bet atļaujiet piekļuvi directory2/subdirectory1/... # Piekļuve visiem pārējiem direktorijiem ir atļauta pēc noklusējuma. Lietotāja aģents: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Bloķējiet piekļuvi visai vietnei citai meklētājprogrammai. Lietotāja aģents: othercrawler Neatļaut: /

Pilna faila robots.txt sintakse

Pilna sintakse ir aprakstīta šajā rakstā. Mēs iesakām ar to iepazīties, jo faila robots.txt sintaksē ir dažas svarīgas nianses.

Noderīgi noteikumi

Šeit ir daži vispārīgi noteikumi failam robots.txt:

Noteikums	Piemērs
Aizliegums pārmeklēt visu vietni. Lūdzu, ņemiet vērā, ka dažos gadījumos vietņu URL var būt iekļauti rādītājā pat tad, ja tie nav pārmeklēti. Lūdzu, ņemiet vērā, ka šis noteikums neattiecas uz AdsBot robotiem, kas jānorāda atsevišķi.	Lietotāja aģents: * Neatļaut: /
Lai novērstu direktorija un visa tā satura skenēšanu, pēc direktorija nosaukuma ievietojiet slīpsvītru. Neizmantojiet failu robots.txt aizsardzībai konfidenciāla informācija! Šiem nolūkiem jāizmanto autentifikācija. Vietrāžus URL, kurus neļauj pārmeklēt fails robots.txt, var indeksēt, un faila robots.txt saturu var skatīt jebkurš lietotājs, tādējādi atklājot failu atrašanās vietu ar sensitīvu informāciju.	Lietotāja aģents: * Disallow: /calendar/ Disallow: /junk/
Lai atļautu pārmeklēšanu tikai vienam rāpuļprogrammai	Lietotāja aģents: Googlebot-news Atļaut: / Lietotāja aģents: * Neatļaut: /
Lai atļautu pārmeklēšanu visām rāpuļprogrammām, izņemot vienu	Lietotāja aģents: Unnecessarybot Disallow: / User-agent: * Atļaut: /
Lai novērstu konkrētas lapas pārmeklēšanu, norādiet šo lapu aiz slīpsvītras.	Lietotāja aģents: * Neatļaut: /private_file.html
Lai paslēptu noteiktu attēlu no Google attēlu robota	Lietotāja aģents: Googlebot-Image Disallow: /images/dogs.jpg
Lai paslēptu visus savas vietnes attēlus no Google attēlu robota	Lietotāja aģents: Googlebot-Image Disallow: /
Lai novērstu visu noteikta veida failu skenēšanu(V šajā gadījumā GIF)	Lietotāja aģents: Googlebot Disallow: /*.gif$
Lai bloķētu noteiktas lapas savā vietnē, bet tajās joprojām rādītu AdSense reklāmas, izmantojiet Neatļaut kārtulu visiem robotiem, izņemot Mediapartners-Google. Rezultātā šis robots varēs piekļūt lapām, kas noņemtas no meklēšanas rezultātiem, lai atlasītu reklāmas, ko rādīt konkrētam lietotājam.	User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Lai norādītu URL, kas beidzas ar noteiktu fragmentu , izmantojiet simbolu $. Piemēram, URL, kas beidzas ar .xls, izmantojiet šādu kodu:	Lietotāja aģents: Googlebot Disallow: /*.xls$

Vai šī informācija bija noderīga?

Kā šo rakstu var uzlabot?