Kuinka määrittää robotin txt. Suosituksia robots txt -tiedoston asettamiseen

Kotiin / Käyttöjärjestelmät

Robots.txt on tekstitiedosto, joka sisältää sivuston indeksointiparametreja hakukoneroboteille.

Robots.txt-tiedoston määrittäminen

Luo tekstieditorissa tiedosto nimeltä robots.txt ja täytä se alla olevien ohjeiden mukaisesti.

Tarkista tiedosto Yandex.Webmaster-palvelusta (Robots.txt-analyysi valikossa).

Lataa tiedosto sivustosi juurihakemistoon.

User-agent -direktiivi

YandexMedia - Indeksoi multimediatiedot.

Jos tietylle robotille on olemassa käskyjä, käskyjä User-agent: Yahoo ja User-agent: * ei käytetä.

User-agent: YandexBot # tulee vain pääindeksointirobotin käytössä Disallow: /*id= User-agent: Yandex # tulee kaikkien Yandex-robottien käytössä Disallow: /*sid= # paitsi pääindeksointirobotti User-agent : * # ei käytä Yandex-robotit Disallow: /cgi-bin

Disallow- ja Allow-käskyt

Estä robottia käyttämästä sivustoasi tai sen tiettyjä osia käyttämällä Disallow-komentoa.

User-agent: YandexDisallow: / # estää pääsyn koko sivustolle User-agent: YandexDisallow: /cgi-bin # estää pääsyn sivuille, jotka alkavat kirjaimella "/cgi-bin"

Standardin mukaan sinun tulee lisätä tyhjä rivi ennen jokaista User-agent -käskyä.

#-hahmo suunnittelee kommentin. Kaikki tätä merkkiä seuraava, ensimmäiseen rivinvaihtoon asti, jätetään huomiotta.

Käytä Salli-komentoa salliaksesi robotin pääsyn tiettyihin sivuston osiin tai koko sivustoon.

User-agent: Yandex Salli: /cgi-bin Disallow: / # estää kaiken lataamisen paitsi "/cgi-bin" alkavien sivujen #

Huom.

Tyhjät rivinvaihdot eivät ole sallittuja User-agent-, Disallow- ja Allow-komentojen välillä.

Ohjeiden yhdistäminen

# Lähde robots.txt: User-agent: Yandex Allow: /catalog Disallow: / # Lajiteltu robots.txt: User-agent: Yandex Disallow: / Salli: /catalog # sallii vain sivujen lataamisen # alussa "/catalog" # Lähde robots.txt: User-agent: Yandex Salli: /Salli: /catalog/auto Disallow: /catalog # Lajiteltu robots.txt: User-agent: Yandex Salli: / Disallow: /catalog Salli: /catalog/auto # kieltää lataamalla sivuja alkaen "/catalog", # mutta sallii ladata sivuja, jotka alkavat "/catalog/auto".

Salli- ja Disallow-käskyt ilman parametreja

Jos käskyt eivät sisällä parametreja, robotti käsittelee tiedot seuraavasti:

User-agent: Yandex Disallow: # sama kuin Allow: / User-agent: Yandex Allow: robotti ei ota # huomioon

Käytä erikoismerkkejä * ja $

Voit käyttää erikoismerkkejä * ja $ asettaaksesi säännöllisiä lausekkeita määrittäessäsi polkuja Allow- ja Disallow-käskyille. *-merkki ilmaisee mitä tahansa merkkijonoa (tai ei mitään). Esimerkkejä:

User-agent: Yandex Disallow: /cgi-bin/*.aspx # kiellot "/cgi-bin/example.aspx" # ja "/cgi-bin/private/test.aspx" Disallow: /*private # estää molemmat " /private", # ja "/cgi-bin/private"

$hahmo

Oletusarvoisesti *-merkki lisätään jokaisen robots.txt-tiedostossa kuvatun säännön loppuun. Esimerkki:

User-agent: Yandex Disallow: /cgi-bin* # estää pääsyn sivuille # jotka alkavat kirjaimella "/cgi-bin"Disallow: /cgi-bin # sama

Jos haluat peruuttaa * säännön lopussa, käytä $-merkkiä, esimerkiksi:

User-agent: Yandex Disallow: /example$ # estää "/example", # mutta sallii "/example.html" User-agent: Yandex Disallow: /example # estää sekä "/example", # että "/example.html" " $-merkki"ei kiellä * lopussa, eli: User-agent: Yandex Disallow: /example$ # kieltää vain "/esimerkki" Disallow: /example*$ # täsmälleen sama kuin "Disallow: /example" # kieltää sekä /example.html- että /example-

Sivustokarttadirektiivi

Jos käytät sivustokarttatiedostoa sivustosi rakenteen kuvaamiseen, ilmoita tiedoston polku sivustokarttadirektiivin parametrina (jos sinulla on useita tiedostoja, ilmoita kaikki polut).

User-agent: Yandex Allow: / sivustokartta: https://example.com/site_structure/my_sitemaps1.xml sivustokartta: https://example.com/site_structure/my_sitemaps2.xml

Direktiivi on intersectional, eli robotti käyttää sitä riippumatta sen sijainnista robots.txt-tiedostossa.

Robotti muistaa tiedostosi polun, käsittelee tietosi ja käyttää tuloksia seuraavan sivustosi käynnin aikana.

Indeksoinnin viivedirektiivi

Jos palvelin on ylikuormitettu eikä latauspyyntöjä ole mahdollista käsitellä, käytä indeksointiviiveohjetta. Voit määrittää vähimmäisajan (sekunteina), jonka hakurobotti odottaa yhden sivun lataamisen jälkeen ennen toisen lataamisen aloittamista.

Säilyttääksesi yhteensopivuuden robottien kanssa, jotka saattavat poiketa standardista robots.txt-tiedostoa käsiteltäessä, lisää Crawl-delay-käsky ryhmään, joka alkaa User-Agent-merkinnällä heti Disallow- ja Allow-komentojen jälkeen.

Yandex-hakurobotti tukee indeksointiviiveen murto-arvoja, kuten "0,5". Tämä ei tarkoita, että hakurobotti siirtyisi sivustollesi puolen sekunnin välein, mutta se voi nopeuttaa sivuston käsittelyä.

User-agent: Yandexin indeksointiviive: 2 # asettaa 2 sekunnin aikakatkaisun User-agent: * Disallow: /search Indeksointiviive: 4,5 # asettaa 4,5 sekunnin aikakatkaisun

Clean-param -direktiivi

Jos sivustosi sivuosoitteet sisältävät dynaamisia parametreja, jotka eivät vaikuta sisältöön (esimerkiksi istuntojen tunnisteet, käyttäjät, viittaavat sivut ja niin edelleen), voit kuvata ne Clean-param-direktiivin avulla.

Yandex-robotti käyttää näitä tietoja välttääkseen päällekkäisten tietojen lataamisen uudelleen. Tämä parantaa robotin tehokkuutta ja vähentää palvelimen kuormitusta.

Sivustollasi on esimerkiksi seuraavat sivut:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_ 123

Ref-parametria käytetään vain seuraamaan, mistä resurssista pyyntö lähetettiin. Se ei muuta sivun sisältöä Kaikki kolme URL-osoitetta näyttävät saman sivun, jossa on book_id=123, jos ilmoitat ohjeen seuraavasti:

User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

Yandex-robotti yhdistää kaikki sivuosoitteet yhdeksi:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Jos sivustolla on sivu ilman parametreja:

www.example.com/some_dir/get_book.pl?book_id=123

kaikki muut URL-osoitteet korvataan sillä, kun robotti on indeksoinut sen. Muut sivustosi sivut indeksoidaan useammin, koska sivuja ei tarvitse päivittää:

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Direktiivin syntaksi

Clean-param: p0[&p1&p2&..&pn]

Ensimmäisessä kentässä luetellaan parametrit, jotka on jätettävä huomiotta, erotettuina &-merkillä. Ilmoita toisessa kentässä niiden sivujen polun etuliite, joita sääntöä tulee soveltaa.

Etuliite voi sisältää säännöllisen lausekkeen muodossa, joka on samanlainen kuin robots.txt-tiedostossa, mutta tietyin rajoituksin: voit käyttää vain merkkejä A-Za-z0-9.-/*_ . Kuitenkin * tulkitaan samalla tavalla kuin robots.txt -tiedostossa. * on aina implisiittisesti liitetty etuliitteen loppuun. Esimerkiksi:

Puhdas parametri: s /forum/showthread.php

tarkoittaa, että s-parametria ei oteta huomioon kaikissa URL-osoitteissa, jotka alkavat /forum/showthread.php . Toinen kenttä on valinnainen, ja tässä tapauksessa sääntö koskee kaikkia sivuston sivuja. Se on kirjainkoon herkkä. Säännön enimmäispituus on 500 merkkiä. Esimerkiksi:

Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash

Muita esimerkkejä

#osoitteisiin, kuten:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a User's #243&t-8 sisältää seuraavan: agentti: Yandex Disallow: Clean-param: s /forum/showthread.php #osoitteisiin, kuten:www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php? 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt sisältää seuraavan: User-agent: Yandex Disallow: Clean-param: sid /index.php #jos näitä parametreja on useita:www.example1.com/forum_old.phs ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt sisältää seuraavan: User-agent /form&form:s-anre +/ robots.txt sisältää seuraavan: User-agent: Yandex Disallow: Clean-param: s /forum/index.php Clean-param: s /forum/showthread.php

Kyrillisten merkkien käyttö

Kyrillisten aakkosten käyttö ei ole sallittua robots.txt-tiedostossa ja HTTP-palvelimen otsikoissa.

Käytä verkkotunnusten nimissä Punycodea. Käytä sivuosoitteissa samaa koodausta kuin nykyisessä sivustorakenteessa.

Esimerkki robots.txt-tiedostosta:

#Incorrect: User-agent: Yandex Disallow: / cart Sivustokartta: site.рф/sitemap.xml #Oikea: User-agent: Yandex Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 Sivustokartta: http://xn--80aswg.xn--p1ai/sitemap.xml

Lisätietoja

Yandex-robotti tukee vain tällä sivulla lueteltuja robots.txt-komentoja. Yllä kuvatut tiedostojen käsittelysäännöt edustavat perusstandardin laajennusta. Muut robotit voivat tulkita robots.txt-tiedoston sisällön eri tavalla.

Tulokset käytettäessä laajennettua robots.txt-muotoa voivat poiketa tuloksista, jotka käyttävät perusstandardia, erityisesti:

User-agent: Yandex Allow: / Disallow: /# ilman laajennuksia kaikki oli kiellettyä, koska "Allow: /" ohitettiin, # laajennuksia tuettu, kaikki on sallittu User-agent: Yandex Disallow: /private*html # ilman laajennuksia, " /private*html" oli kielletty, # tuetuilla laajennuksilla, "/private*html", # "/private/test.html", "/private/html/test.aspx" ja niin edelleen ovat kiellettyjä myös User- agentti: Yandex Disallow: /private$ # ilman tuettuja laajennuksia, "/private$" ja "/private$test" ja niin edelleen olivat kiellettyjä, # tuetuilla laajennuksilla, vain "/private" on kielletty User-agent: * Disallow : / User-agent: Yandex Salli: / # ilman laajennuksia tuettu, puuttuvan rivinvaihdon vuoksi # "User-agent: Yandex" jätetään huomiotta # tuloksena olisi "Disallow: /", mutta Yandex-robotti # jäsentää merkkijonot "User-agent:"-alimerkkijonon perusteella. # Tässä tapauksessa Yandex-robotin tulos on "Salli: /" User-agent: * Disallow: / # kommentti1... # kommentti2... # kommentti3... User-agent: Yandex Salli: / # sama kuten edellisessä esimerkissä (katso yllä)

Esimerkkejä laajennetun robots.txt-muodon käyttämisestä:

User-agent: Yandex Salli: /archive Disallow: / # sallii kaiken, mikä sisältää "/archive"; loput ovat kiellettyjä User-agent: Yandex Allow: /obsolete/private/*.html$ # sallii HTML-tiedostot # polussa "/obsolete/private/..." Disallow: /*.php$ # sallii kaiken "* .php" on siteDisallow: /*/private/ # estää kaikki alipolut, jotka sisältävät # "/private/", mutta yllä oleva Allow kumoaa # osan kiellosta Disallow: /*/old/*.zip$ # kieltää kaikki "*. zip"-tiedostot, jotka sisältävät # "/old/" polussa User-agent: Yandex Disallow: /add.php?*user= # estää kaiken "add.php?" komentosarjat "käyttäjä"-vaihtoehdolla

Kun muodostat robots.txt-tiedostoa, sinun tulee muistaa, että robotti asettaa kohtuullisen rajan sen kokoon. Jos tiedostokoko ylittää 32 kt, robotti olettaa sallivansa kaiken, eli se tulkitaan samalla tavalla kuin.

Robots.txt-tiedoston oikea määrittäminen poistaa mahdollisia ongelmia, joka syntyy indeksoinnin aikana.

Erityisesti sivuston omistajalla on mahdollisuus rajoittaa resurssin palvelu- ja henkilökohtaisten osien indeksointia. Kuinka luoda tiedosto ja määrittää se eri hakukoneille sekä suosittuja sisällönhallintajärjestelmiä varten - puhumme tässä julkaisussa.

Mihin robots.txt-tiedosto on tarkoitettu?

Kuten arvata saattaa, tämä tiedosto sisältää hakuboteille tarkoitettuja ohjeita. Se on sijoitettava juurihakemistoon, jotta robotit alkavat indeksoida sivua lukemalla robots.txt-tiedoston ehdot.

Siten tiedosto osoittaa hakuroboteille, mitkä sivuston hakemistot ovat sallittuja indeksoitaviksi ja mitkä eivät kuulu tämän prosessin piiriin.

Koska tiedoston läsnäolo ei vaikuta sijoitusprosessiin, monet sivustot eivät sisällä robots.txt-tiedostoa. Mutta se ei todellakaan ole oikea tapa. Katsotaanpa robots.txt:n resurssille tarjoamia etuja.

Voit kieltää resurssin indeksoinnin kokonaan tai osittain ja rajoittaa niiden hakurobottien määrää, joilla on oikeus suorittaa indeksointi. Voit suojata resurssin täysin tältä prosessilta (esimerkiksi verkkosivustoa luodessasi tai rekonstruoidessasi).

Lisäksi robots-tiedosto rajoittaa kaikenlaisten roskapostirobottien pääsyä resurssiin, jonka tarkoituksena on skannata sivusto sähköpostiosoitteet, jota käytetään sitten roskapostin lähettämiseen. Älkäämme miettikö, mihin tämä voi johtaa – ja se on ymmärrettävää.

Voit piilottaa indeksoinnista sivuston osiot, joita ei ole tarkoitettu hakukoneille, vaan tietylle käyttäjäryhmälle, yksityisiä ja muita vastaavia tietoja sisältävät osiot.

Oikean robots.txt-tiedoston luominen

Oikeat robotit voidaan kirjoittaa helposti manuaalisesti ilman erilaisten rakentajien apua. Prosessi tiivistyy siihen, että kirjoitat tarvittavat käskyt tavalliseen muistilehtiötiedostoon, joka sinun on sitten tallennettava nimellä "robots" ja ladattava oman resurssi juurihakemistoon. Yksi tällainen tiedosto tarvitaan yhdelle sivustolle. Se voi sisältää ohjeita kaikkien asiaankuuluvien hakukoneiden hakuroboteille. Eli jokaiselle hakukoneelle ei tarvitse luoda erillistä tiedostoa.

Mitä tiedostoon pitäisi kirjoittaa? On pakollista käyttää kahta käskyä: User-agent ja Disallow. Ensimmäinen määrittää, mille botille tämä viesti on osoitettu, ja toinen osoittaa, minkä sivun tai resurssihakemiston indeksointi on kielletty.

Jos haluat asettaa samat säännöt kaikille boteille, voit käyttää tähtimerkkiä User-agent-direktiivin nimen sijaan.
Robots.txt-tiedosto näyttää tässä tapauksessa tältä:

Muuten, Googlen kehittäjät ovat toistuvasti muistuttaneet verkkovastaavia siitä, että robots.txt-tiedoston koko ei saa ylittää 500 kt. Tämä johtaa varmasti virheisiin indeksoinnin aikana. Jos luot tiedoston manuaalisesti, tällaisen koon "saavutus" on tietysti epärealistista. Mutta jotkut sisällönhallintajärjestelmät, jotka luovat automaattisesti robots.txt-sisältöä, voivat tehdä siitä huomattavasti raskaampaa.

Luo helposti tiedosto mille tahansa hakukoneelle

Jos pelkäät tekeväsi virheitä tiedostoa kirjoittaessasi (tai olet yksinkertaisesti liian laiska tekemään niin), voit uskoa tarvittavien ohjeiden luomisen rakentajan tehtäväksi. Se on yhtä yksinkertainen kuin kaksi kertaa kaksi, mutta annamme silti lyhyen selityksen siitä, kuinka sen kanssa työskennellä.

Ensimmäinen kenttä sisältää resurssin osoitteen. Vasta tämän jälkeen käyttäjällä on mahdollisuus valita hakukone, jolle nämä säännöt on asetettu (voit valita useita hakukoneita peräkkäin). Seuraavaksi sinun on määritettävä kansiot ja tiedostot, joihin pääsy estetään, määritettävä sivuston peilin osoite ja osoitettava resurssikartan sijainti.

Kun täytät kenttiä, vaaditut hakemistot syötetään alempaan kenttään. Sinun tarvitsee vain kopioida ne txt-tiedostoon ja antaa sille nimi robotit.

Kuinka tarkistaa robots.txt-tiedoston tehokkuus

Jos haluat analysoida tiedoston toimintaa Yandexissä, sinun tulee siirtyä vastaavalle sivulle Yandex.Webmaster-osiossa. Määritä valintaikkunassa sivuston nimi ja napsauta "lataa" -painiketta.

Järjestelmä analysoi robots.txt-tiedoston ja ilmoittaa, indeksoiko hakurobotti sivuja, joiden indeksointi on kielletty. Jos ongelmia ilmenee, ohjeita voidaan muokata ja testata suoraan valintaikkunassa ja kopioida ja liittää robots.txt-tiedostoon juurihakemistossa.

Vastaavan palvelun tarjoaa Googlen hakukoneen Webmaster Tools -palvelu.

Robots.txt:n luominen WordPressille, Joomlalle ja Ucozille

Useat avoimissa tiloissamme laajaa suosiota saavuttaneet sisällönhallintajärjestelmät tarjoavat käyttäjille omia versioita robots.txt-tiedostoista (tai niillä ei ole niitä ollenkaan). Usein nämä tiedostot ovat joko liian yleismaailmallisia eivätkä ota huomioon käyttäjän resurssin ominaisuuksia tai niissä on useita merkittäviä puutteita.

Voit yrittää tehdä muutoksia niihin manuaalisesti (mikä ei ole kovin tehokasta, jos sinulla ei ole tietoa), tai voit käyttää ammattitaitoisempien kollegoiden kokemusta. Kuten he sanovat, kaikki on jo tehty ennen meitä. Esimerkiksi WordPressin robots.txt voi näyttää tältä:

Rivi www.site.ru tulisi tietysti korvata käyttäjän verkkosivuston osoitteella.

Estä indeksointi seuraaville boteille:

Kaikille
Yandex
Google
Mail.ru
Rammler
Bing
Yahoo

Pääsivuston verkkotunnus:

Aikakatkaisu robottien siirtymien välillä sivujen välillä:
1 sekunti 5 sekuntia 10 sekuntia 60 sekuntia

Siirrytään sivustokarttaan, sitemap.xml:

Valmis robots.txt:

Tallenna tiedot tiedostoon "robots.txt" ja kopioi se sivuston juurikansioon.

Mihin "Robots.txt Generator" -työkalua käytetään?

Palvelusivusto esittelee sinulle "Robots.txt Generator" -työkalun, jolla voit luoda robots.txt-tiedoston verkossa muutamassa sekunnissa sekä asettaa kiellon indeksoida sivuston sivuja tietyillä hakukoneilla.

Mikä on robots.txt

Robots.txt on tiedosto, joka sijaitsee sivuston juuressa ja sisältää ohjeet hakuroboteille. Vieraillessaan missä tahansa resurssissa robotit alkavat tutustua siihen robots.txt-tiedostosta - eräänlaisesta "käyttöohjeesta". Kustantaja ilmoittaa tämä tiedosto miten robotin on oltava vuorovaikutuksessa resurssin kanssa. Se voi esimerkiksi sisältää kiellon indeksoida tiettyjä sivuja tai suosituksen säilyttää aikaväli asiakirjojen tallentamisen välillä verkkopalvelimelta.

Työkalujen ominaisuudet

Verkkovastaava voi kieltää hakukoneiden Yandex, Google, Mail.ru, Rambler, Bing tai Yahoo!-robottien indeksoinnin, sekä asettaa aikakatkaisun hakurobotin siirtymien välillä resurssisivuilla ja kieltää valittujen sivujen indeksoinnin. sivusto. Lisäksi erityisellä rivillä voit merkitä hakuroboteille polun sivustokarttaan (sitemap.xml).

Kun olet täyttänyt työkalun kaikki kentät ja napsauttanut "Luo" -painiketta, järjestelmä luo automaattisesti tiedoston hakuroboteille, jotka sinun on sijoitettava sivustosi juurialueelle.

Huomaa, että robots.txt-tiedostoa ei voi käyttää sivun piilottamiseen hakutuloksista, koska muut resurssit voivat linkittää siihen ja hakurobotit indeksoivat sen tavalla tai toisella. Muistutamme, että sivun estämiseksi hakutuloksissa käytä erityistä "noindex" -tunnistetta tai aseta salasana.

On myös syytä huomata, että käyttämällä Robots.txt Generator -työkalua luot puhtaasti neuvoa-antavan tiedoston. Tietenkin robotit "kuuntelevat" webmastereiden heille robots.txt-tiedostossa jättämiä ohjeita, mutta joskus he jättävät ne huomiotta. Miksi näin tapahtuu? Koska jokaisella hakurobotilla on omat asetukset, joiden mukaan se tulkitsee robots.txt-tiedostosta saamansa tiedot.

Sivuston sitemap.xml-tiedosto ja oikea robots.txt-tiedosto ovat kaksi pakollista dokumenttia, jotka edistävät hakurobottien kaikkien tarvittavien verkkoresurssien sivujen nopeaa ja täydellistä indeksointia. Oikea sivuston indeksointi Yandexissä ja Googlessa on avain menestyksekkääseen blogien edistämiseen hakukoneissa.

Kirjoitin jo, kuinka sivukartta tehdään XML-muodossa ja miksi sitä tarvitaan. Nyt puhutaan siitä, kuinka luodaan oikea robots.txt WordPress-sivustolle ja miksi sitä yleensä tarvitaan. Yksityiskohtaiset tiedot Tietoja tästä tiedostosta voi saada Yandexiltä ja Googlelta itseltään. Siirryn ytimeen ja käsittelen WordPressin robots.txt-perusasetuksia käyttämällä tiedostoani esimerkkinä.

Miksi tarvitset robots.txt-tiedoston verkkosivustolle?

Robots.txt-standardi ilmestyi tammikuussa 1994. Kun etsit verkkoresurssia, hakurobotit etsivät sitä ensin tekstitiedosto robots.txt, joka sijaitsee sivuston tai blogin juurikansiossa. Sen avulla voimme määrittää tiettyjä sääntöjä eri hakukoneiden roboteille, joiden mukaan he indeksoivat sivuston.

Kun määrität robots.txt-tiedoston oikein, voit:

sulkea pois kaksoiskappaleet ja erilaiset roskapostisivut hakemistosta;
kiellä niiden sivujen, tiedostojen ja kansioiden indeksointi, jotka haluamme piilottaa;
yleensä kieltäydytään indeksoimasta joillekin hakuroboteille (esimerkiksi Yahoo, jotta voidaan piilottaa tietoja kilpailijoilta saapuvista linkeistä);
ilmoittaa sivuston pääpeili (www:llä tai ilman www-sivua);
määritä polku sivustokarttaan sitemap.xml.

Oikean robots.txt-tiedoston luominen sivustolle

Tätä tarkoitusta varten on olemassa erityisiä generaattoreita ja laajennuksia, mutta on parempi tehdä tämä manuaalisesti.

Sinun tarvitsee vain luoda tavallinen tekstitiedosto nimeltä robots.txt millä tahansa tekstieditorilla (esimerkiksi Notepad tai Notepad++) ja ladata se isännöintiisi blogisi juurikansioon. Tietyt käskyt on kirjoitettava tähän tiedostoon, esim. indeksointisäännöt Yandexin, Googlen jne. roboteille.

Jos olet liian laiska vaivautumaan tähän, annan alla esimerkin omasta näkökulmastani oikeasta robots.txt-tiedostosta WordPressille blogissani. Voit käyttää sitä korvaamalla verkkotunnuksen kolmessa paikassa.

Robots.txt-tiedoston luomissäännöt ja -ohjeet

Menestystä varten hakukoneoptimointi Blogissa sinun on tiedettävä joitain robots.txt-tiedoston luomissääntöjä:

Poissaolo tai tyhjä tiedosto robots.txt tarkoittaa, että hakukoneet voivat indeksoida kaiken verkkoresurssin sisällön.
robots.txt-tiedoston pitäisi avautua osoitteeseen site.ru/robots.txt ja antaa robotille vastauskoodi 200 OK ja olla kooltaan enintään 32 kt. Tiedostoa, joka ei avaudu (esimerkiksi 404-virheen vuoksi) tai se on suurempi, pidetään ok.
Ohjeiden määrä tiedostossa saa olla enintään 1024. Yhden rivin pituus saa olla enintään 1024 merkkiä.
Kelvollisessa robots.txt-tiedostossa voi olla useita käskyjä, joista jokaisen on alettava User-agent-käskyllä ja niissä on oltava vähintään yksi Disallow-käsky. Yleensä he kirjoittavat ohjeet robots.txt-tiedostoon Googlelle ja kaikille muille roboteille ja erikseen Yandexille.

Robots.txt-tiedoston perusohjeet:

User-agent – osoittaa mille hakurobotille ohje on osoitettu.

Symboli “*” tarkoittaa, että tämä koskee kaikkia robotteja, esimerkiksi:

User-agent: *

Jos meidän on luotava sääntö robots.txt-tiedostoon Yandexille, kirjoitamme:

Käyttäjäagentti: Yandex

Jos ohje on määritetty tietylle robotille, se ei ota User-agent: * -ohjetta huomioon.

Estä ja Salli – estävät ja sallivat robottien indeksoida määritetyt sivut. Kaikki osoitteet on määritettävä sivuston juuresta, ts. alkaen kolmannesta kauttaviivasta. Esimerkiksi:

Kielletään kaikkia robotteja indeksoimasta koko sivustoa:
User-agent: *
Estä: /
Yandex ei saa indeksoida kaikkia sivuja, jotka alkavat /wp-admin:
Käyttäjäagentti: Yandex
Disallow: /wp-admin
Tyhjä Disallow-direktiivi sallii kaiken indeksoinnin ja on samanlainen kuin Allow. Esimerkiksi annan Yandexin indeksoida koko sivuston:
Käyttäjäagentti: Yandex
Estä:
Ja päinvastoin, kiellän kaikkia hakurobotteja indeksoimasta kaikkia sivuja:
User-agent: *
Salli:
Saman User-agent-lohkon Salli- ja Disallow-käskyt lajitellaan URL-etuliitepituuden mukaan ja suoritetaan peräkkäin. Jos useat käskyt sopivat yhdelle sivuston sivulle, suoritetaan luettelon viimeinen. Nyt niiden kirjoitusjärjestyksellä ei ole väliä, kun robotti käyttää direktiivejä. Jos käskyillä on samanpituiset etuliitteet, Allow suoritetaan ensin. Nämä säännöt astuvat voimaan 8.3.2012. Se sallii esimerkiksi vain /wp-includes-alkuisten sivujen indeksoinnin:
Käyttäjäagentti: Yandex
Estä: /
Salli: /wp-includes

Sivustokartta – Määrittää XML-sivustokartan osoitteen. Yhdellä sivustolla voi olla useita Sitemap-komentoja, jotka voidaan sisäkkäin. Kaikkien sivustokarttatiedostojen osoitteet on määritettävä robots.txt-tiedostossa sivuston indeksoinnin nopeuttamiseksi:

Sivustokartta: http://site/sitemap.xml.gz
Sivustokartta: http://site/sitemap.xml

Isäntä – kertoo peilirobotille, mikä verkkosivuston peili pitää ensisijaisena.

Jos sivusto on käytettävissä useista osoitteista (esimerkiksi www-osoitteella ja ilman www-osoitetta), tämä luo täydellisiä kaksoissivuja, jotka suodatin voi siepata. Myös tässä tapauksessa se ei välttämättä ole pääsivu, joka on indeksoitu, mutta pääsivu päinvastoin jätetään hakemiston ulkopuolelle. hakukone. Tämän estämiseksi käytä isäntädirektiiviä, joka on tarkoitettu robots.txt-tiedostossa vain Yandexille, ja sitä voi olla vain yksi. Se on kirjoitettu Disallow ja Allow jälkeen ja näyttää tältä:

Isäntä: verkkosivusto

Crawl-delay – määrittää viiveen sivujen lataamisen välillä sekunneissa. Käytetään, jos kuormitus on suuri ja palvelimella ei ole aikaa käsitellä pyyntöjä. Nuorilla sivustoilla on parempi olla käyttämättä indeksointiviivedirektiiviä. Se on kirjoitettu näin:

Käyttäjäagentti: Yandex
Indeksoinnin viive: 4

Clean-param - vain Yandex tukee ja sitä käytetään poistamaan päällekkäiset sivut muuttujilla yhdistämällä ne yhdeksi. Siksi Yandex-robotti ei lataa samanlaisia sivuja monta kertaa, esimerkiksi niitä, jotka liittyvät viittauslinkkeihin. En ole vielä käyttänyt tätä ohjetta, mutta Yandexin robots.txt-tiedoston ohjeessa, seuraa artikkelin alussa olevaa linkkiä, voit lukea tämän direktiivin yksityiskohtaisesti.

Erikoismerkkejä * ja $ käytetään robots.txt-tiedostossa osoittamaan Disallow- ja Allow-komentojen polut:

Erikoismerkki “*” tarkoittaa mitä tahansa merkkijonoa. Esimerkiksi Disallow: /*?* tarkoittaa kieltoa kaikilla sivuilla, joilla on "?", riippumatta siitä, mitä merkkejä on ennen ja jälkeen. Oletuksena erikoismerkki “*” lisätään jokaisen säännön loppuun, vaikka sitä ei olisi erikseen määritetty.
"$"-symboli kumoaa "*" säännön lopussa ja tarkoittaa tiukkaa vastaavuutta. Esimerkiksi Disallow: /*?$-direktiivi estää sivujen indeksoinnin, jotka päättyvät merkkiin "?".

Esimerkki robots.txt-tiedostosta WordPressille

Tässä on esimerkki robots.txt-tiedostostani blogia varten WordPress-moottorilla:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Jotta et huijaa itseäsi luomalla oikeaa robots.txt-tiedostoa WordPressille, voit käyttää tätä tiedostoa. Indeksoinnissa ei ole ongelmia. Minulla on kopiosuojausskripti, joten on helpompi ladata valmis robots.txt ja ladata se isännöintiisi. Älä vain unohda korvata sivustoni nimeä omallasi isäntä- ja sivustokarttaohjeissa.

Hyödyllisiä lisäyksiä robots.txt-tiedoston oikeaan määrittämiseen WordPressille

Jos puukommentit on asennettu WordPress-blogiisi, ne luovat kaksoissivuja muodossa ?replytocom=. Robots.txt:ssä tällaiset sivut suljetaan Disallow: /*?* -käskyllä. Mutta tämä ei ole ratkaisu, ja on parempi poistaa kiellot ja taistella replytocomia vastaan muulla tavalla. Mitä,.

Näin ollen nykyinen robots.txt-tiedosto heinäkuussa 2014 näyttää tältä:

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -sisältää Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Isäntä: site.ru User-agent: Googlebot-Image Allow: /wp-content /uploads/ User-agent: YandexImages Salli: /wp-content/uploads/ Sivustokartta: http://site.ru/sitemap.xml

Se sisältää lisäksi säännöt kuvien indeksointiroboteille.

Käyttäjäagentti: Mediapartners-Google
Estä:

Jos aiot mainostaa luokka- tai tunnistesivuja, sinun tulee avata ne roboteille. Esimerkiksi blogisivustolla kategorioita ei suljeta indeksoinnista, koska ne julkaisevat vain pieniä artikkeleita, mikä on sisällön kopioimisen kannalta melko merkityksetöntä. Ja jos käytät lainausten näyttämistä blogisyötteessä, jotka ovat täynnä ainutlaatuisia ilmoituksia, päällekkäisyyksiä ei tapahdu ollenkaan.

Jos et käytä yllä olevaa laajennusta, voit määrittää robots.txt-tiedostossasi estämään tunnisteiden, luokkien ja arkistojen indeksoinnin. Esimerkiksi lisäämällä seuraavat rivit:

Disallow: /author/
Disallow: /tag
Disallow: /category/*/*
Disallow: /20*

Muista tarkistaa robots.txt-tiedosto Yandex.Webmaster-paneelista ja ladata se sitten uudelleen isännöintiisi.

Jos sinulla on lisäyksiä robots.txt-tiedoston määrittämiseen, kirjoita niistä kommentteihin. Katso nyt video siitä, mitä se on ja kuinka luodaan oikea robots.txt-tiedosto sivustolle, kuinka estetään indeksointi robots.txt-tiedostossa ja korjataan virheet.

Robots.txt-tiedosto sijaitsee sivustosi juurihakemistossa. Esimerkiksi sivustossa www.example.com robots.txt-tiedoston osoite näyttää tältä www.example.com/robots.txt. Robots.txt-tiedosto on pelkkä tekstitiedosto, joka noudattaa robottien poissulkemisstandardia ja sisältää yhden tai useamman säännön, joista jokainen estää tai sallii tietyn indeksointirobotin pääsyn tiettyyn polkuun sivustolla.

Tässä on esimerkki yksinkertainen tiedosto robots.txt kahdella säännöllä. Alla on selitykset.

# Ryhmän 1 käyttäjäagentti: Googlebot Disallow: /nogooglebot/ # Ryhmän 2 käyttäjäagentti: * Salli: / Sivustokartta: http://www.example.com/sitemap.xml

Selitykset

Googlebot-niminen käyttäjäagentti ei saa indeksoida hakemistoa http://example.com/nogooglebot/ ja sen alihakemistoja.
Kaikilla muilla käyttäjäagenteilla on pääsy koko sivustolle (voidaan jättää pois, tulos on sama, koska täysi käyttöoikeus myönnetään oletuksena).
Sivustokarttatiedosto tämä sivusto sijaitsee osoitteessa http://www.example.com/sitemap.xml.

Alla on vinkkejä robots.txt-tiedostojen käsittelyyn. Suosittelemme, että tutustut näiden tiedostojen koko syntaksiin, koska niiden luomiseen käytetyt syntaksisäännöt eivät ole ilmeisiä ja sinun on ymmärrettävä ne.

Muoto ja asettelu

Voit luoda robots.txt-tiedoston melkein missä tahansa tekstieditorissa, joka tukee UTF-8-koodausta. Älä käytä tekstinkäsittelyohjelmat, koska ne usein tallentavat tiedostot omaan muotoon ja lisäävät virheellisiä merkkejä, kuten kiharaisia lainausmerkkejä, joita hakurobotit eivät tunnista.

Kun luot ja testaat robots.txt-tiedostoja, käytä testaustyökalua. Sen avulla voit analysoida tiedoston syntaksia ja selvittää, miten se toimii sivustossasi.

Tiedostomuotoa ja sijaintia koskevat säännöt

Tiedoston nimen tulee olla robots.txt.
Sivustolla saa olla vain yksi tällainen tiedosto.
Robots.txt-tiedosto on sijoitettava juurihakemisto sivusto. Jos esimerkiksi haluat hallita kaikkien sivuston http://www.example.com/ sivujen indeksointia, robots.txt-tiedoston tulee sijaita osoitteessa http://www.example.com/robots.txt. Sen ei pitäisi olla alihakemistossa(esimerkiksi osoitteessa http://example.com/pages/robots.txt). Jos sinulla on vaikeuksia päästä juurihakemistoon, ota yhteyttä isännöintipalveluntarjoajaasi. Jos sinulla ei ole pääsyä sivuston juurihakemistoon, käytä vaihtoehtoinen menetelmä lukot, kuten sisällönkuvauskentät.
Robots.txt-tiedosto voidaan lisätä osoitteisiin, joissa on aliverkkotunnuksia(esimerkiksi http:// verkkosivuilla.example.com/robots.txt) tai epätyypillisiä portteja (esimerkiksi http://example.com: 8181 /robots.txt).
Kaikki #-symbolin jälkeinen teksti katsotaan kommentiksi.

Syntaksi

Robots.txt-tiedoston on oltava UTF-8-koodattu tekstitiedosto (joka sisältää ASCII-merkkikoodeja). Muita merkistöjä ei voi käyttää.
Robots.txt-tiedosto koostuu ryhmiä.
Jokainen ryhmä voi sisältää useita säännöt, yksi riviä kohden. Näitä sääntöjä kutsutaan myös direktiivit.
Ryhmä sisältää seuraavat tiedot:
- Mihin käyttäjäagentti Ryhmäohjeita sovelletaan.
- on pääsy.
- Mitä hakemistoja tai tiedostoja tämä agentti käyttää? ei pääsyä.
Ryhmäohjeet luetaan ylhäältä alas. Robotti noudattaa vain yhden ryhmän sääntöjä sen käyttäjäagentin kanssa, joka vastaa sitä eniten.
Oletuksena se oletetaan että jos Disallow:-sääntö ei estä pääsyä sivulle tai hakemistoon, käyttäjäagentti voi käsitellä sen.
säännöt isot ja pienet kirjaimet. Siten Disallow: /file.asp-sääntö koskee URL-osoitetta http://www.example.com/file.asp, mutta ei http://www.example.com/File.asp.

Robots.txt-tiedostoissa käytetyt direktiivit

User-agent: Pakollinen ohje, näitä voi olla useita ryhmässä. Määrittää, mikä hakukone robotti sääntöjä on sovellettava. Jokainen ryhmä alkaa tällä rivillä. Useimmat Google Robotsiin liittyvät käyttäjäagentit löytyvät erityisestä luettelosta ja Internet Robots -tietokannasta. Jokerimerkkiä * tuetaan osoittamaan polun etuliite, pääte tai koko polku. Käytä *-merkkiä alla olevan esimerkin mukaisesti estääksesi kaikkien indeksointirobottien pääsyn ( paitsi AdsBot-robotit, joka on ilmoitettava erikseen). Suosittelemme, että tutustut Google-robottien luetteloon. Esimerkkejä:# Esimerkki 1. Pääsyn estäminen vain Googlebotin User-agentille: Googlebot Disallow: / # Esimerkki 2. Googlebotin ja AdsBot-robottien pääsyn estäminen User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Esimerkki 3. Pääsyn estäminen kaikki robotit , paitsi AdsBot User-agent: * Disallow: /
Estä: . Osoittaa hakemistoon tai sivuun suhteessa juuriverkkotunnukseen, jota yllä määritetty käyttäjäagentti ei voi indeksoida. Jos tämä on sivu, sen koko polku on määritettävä, kuten selaimen osoiterivillä. Jos se on hakemisto, polun tulee päättyä kauttaviivaan (/). Jokerimerkkiä * tuetaan osoittamaan polun etuliite, pääte tai koko polku.
Salli: Jokaisessa ryhmässä on oltava vähintään yksi Disallow: tai Allow: -käsky. Osoittaa hakemistoon tai sivuun suhteessa juuriverkkotunnukseen, jonka yllä määritetty käyttäjäagentti voi indeksoida. Käytetään ohittamaan Disallow-komento ja sallimaan alihakemiston tai sivun skannaus hakemistossa, joka on suljettu skannausta varten. Jos tämä on sivu, sen koko polku on määritettävä, kuten selaimen osoiterivillä. Jos se on hakemisto, polun tulee päättyä kauttaviivaan (/). Jokerimerkkiä * tuetaan osoittamaan polun etuliite, pääte tai koko polku.
Sivustokartta: Valinnainen ohje tiedostossa voi olla useita tai ei yhtään. Osoittaa tällä sivustolla käytetyn sivustokartan sijainnin. URL-osoitteen on oltava täydellinen. Google ei käsittele tai vahvista URL-muunnelmia http- ja https-etuliitteillä tai www-elementin kanssa tai ilman sitä. Sivustokartat kerro Googlelle mitä sisältöä tarvitse skannaus ja kuinka erottaa se sisällöstä Voi tai se on kiellettyä skannata. Esimerkki: Sivustokartta: https://example.com/sitemap.xml Sivustokartta: http://www.example.com/sitemap.xml

Muut säännöt jätetään huomiotta.

Toinen esimerkki

Robots.txt-tiedosto koostuu ryhmistä. Jokainen niistä alkaa User-agent -rivillä, joka määrittelee robotin, jonka on noudatettava sääntöjä. Alla on esimerkki tiedostosta, jossa on kaksi ryhmää ja selittävät kommentit molemmille.

# Estä Googlebotin pääsy osoitteeseen example.com/hakemisto1/... ja esimerkki.com/hakemisto2/... # mutta salli pääsy hakemistoon 2/alihakemisto1/... # Kaikkien muiden hakemistojen käyttö on oletuksena sallittu. User-agent: googlebot Disallow: /hakemisto1/ Disallow: /hakemisto2/ Salli: /hakemisto2/alihakemisto1/ # Estä pääsy koko sivustolle toiselle hakukoneelle. User-agent: othercrawler Disallow: /

Robots.txt-tiedoston täydellinen syntaksi

Koko syntaksi on kuvattu tässä artikkelissa. Suosittelemme, että tutustut siihen, koska robots.txt-tiedoston syntaksissa on joitain tärkeitä vivahteita.

Hyödyllisiä sääntöjä

Tässä on joitain yleisiä sääntöjä robots.txt-tiedostolle:

Sääntö	Esimerkki
Koko sivuston indeksointikielto. Huomaa, että joissakin tapauksissa sivuston URL-osoitteet voivat olla hakemistossa, vaikka niitä ei olisi indeksoitu. Huomaa, että tämä sääntö ei koske AdsBot-robotteja, jotka on määritettävä erikseen.	User-agent: * Disallow: /
Estääksesi hakemiston ja sen kaiken sisällön tarkistamisen, aseta vinoviiva hakemiston nimen perään. Älä käytä robots.txt-tiedostoa suojaukseen luottamuksellisia tietoja! Todennusta tulee käyttää näihin tarkoituksiin. URL-osoitteet, joita robots.txt-tiedosto estää indeksoimasta, voidaan indeksoida, ja kuka tahansa käyttäjä voi tarkastella robots.txt-tiedoston sisältöä ja paljastaa siten arkaluonteisia tietoja sisältävien tiedostojen sijainnin.	User-agent: * Disallow: /calendar/ Disallow: /roska/
Salli vain yhden indeksointirobotin indeksoinnin	User-agent: Googlebot-uutiset Salli: / User-agent: * Disallow: /
Sallii indeksoinnin kaikille indeksoijille yhtä lukuun ottamatta	User-agent: Tarpeetonbot Disallow: / User-agent: * Salli: /
Estääksesi tietyn sivun indeksoinnin, määritä tämä sivu kauttaviivan jälkeen.	User-agent: * Disallow: /private_file.html
Tietyn kuvan piilottaminen Google Images -robotilta	User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Kaikkien sivustosi kuvien piilottaminen Google-kuvahaun robotilta	User-agent: Googlebot-Image Disallow: /
Voit estää kaikkien tietyntyyppisten tiedostojen tarkistamisen(V tässä tapauksessa GIF)	User-agent: Googlebot Disallow: /*.gif$
Voit estää tietyt sivustosi sivut, mutta silti näyttää niillä AdSense-mainoksia, käytä Disallow-sääntöä kaikille roboteille paitsi Mediapartners-Googlelle. Tämän seurauksena tämä robotti voi käyttää hakutuloksista poistettuja sivuja valitakseen mainoksia, jotka näytetään tietylle käyttäjälle.	User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Voit määrittää URL-osoitteen, jonka lopussa on tietty fragmentti , käytä $-symbolia. Käytä esimerkiksi .xls-päätteisille URL-osoitteille seuraavaa koodia:	User-agent: Googlebot Disallow: /*.xls$

Oliko näistä tiedoista hyötyä?

Miten tätä artikkelia voidaan parantaa?