Робот txt файлыг хэрхэн тохируулах талаар. Robots txt файлыг тохируулах зөвлөмж

Гэр / Үйлдлийн системүүд

Robots.txt нь хайлтын системийн роботуудад зориулсан сайтын индексжүүлэлтийн параметрүүдийг агуулсан текст файл юм.

robots.txt-г хэрхэн тохируулах талаар

Текст засварлагч дээр robots.txt нэртэй файл үүсгээд доорх зааврыг ашиглан бөглөнө үү.

Yandex.Webmaster үйлчилгээнд байгаа файлыг шалгана уу (цэс дэх Robots.txt анализ).

Файлыг өөрийн сайтын үндсэн директорт байршуулна уу.

Хэрэглэгч-агент удирдамж

YandexMedia - Мультимедиа өгөгдлийг индексжүүлдэг.

Хэрэв тодорхой роботод зориулсан заавар байгаа бол User-agent: Yahoo болон User-agent: * удирдамжийг ашиглахгүй.

Хэрэглэгч-агент: YandexBot #-г зөвхөн үндсэн индексжүүлэгч робот ашиглана. Зөвшөөрөхгүй: /*id= Хэрэглэгчийн агент: Yandex # бүх Yandex роботуудад ашиглагдана. Зөвшөөрөхгүй: /*sid= # Үндсэн индексжүүлэгч роботоос бусад Хэрэглэгчийн агент : * #-г Yandex робот ашиглахгүй Зөвшөөрөхгүй: /cgi-bin

Зөвшөөрөхгүй, зөвшөөрөх заавар

Робот таны сайт эсвэл түүний зарим хэсэгт нэвтрэхийг хориглохын тулд "Зөвшөөрөх" зааврыг ашиглана уу.

Хэрэглэгчийн агент: YandexDisallow: / # сайт руу нэвтрэхийг хориглоно Хэрэглэгчийн агент: YandexDisallow: /cgi-bin # "/cgi-bin" -ээс эхлэн хуудас руу нэвтрэхийг хориглоно.

Стандартын дагуу та User-agent заавар бүрийн өмнө хоосон мөр оруулах ёстой.

# дүрийн дизайны тайлбар. Энэ тэмдэгтийн дараах бүх зүйл, эхний мөрийн завсарлага хүртэл үл тоомсорлодог.

"Зөвшөөрөх" зааврыг ашиглан роботыг сайтын тодорхой хэсэг эсвэл бүхэлд нь ашиглахыг зөвшөөрнө үү.

Хэрэглэгчийн агент: Yandex Зөвшөөрөх: /cgi-bin Зөвшөөрөхгүй: / # "/cgi-bin" -ээр эхэлсэн хуудаснаас бусад зүйлийг татаж авахыг хориглоно.

Анхаарна уу.

Хэрэглэгч-агент, Зөвшөөрөх, Зөвшөөрөх заавруудын хооронд хоосон мөр таслахыг зөвшөөрдөггүй.

Зааваруудыг нэгтгэх

# Эх сурвалж robots.txt: Хэрэглэгч-агент: Yandex Зөвшөөрөх: /каталог Зөвшөөрөхгүй: / # Эрэмбэлэгдсэн robots.txt: Хэрэглэгч-агент: Yandex Зөвшөөрөхгүй: / Зөвшөөрөх: /каталог # зөвхөн "/каталог" -аар эхэлсэн хуудсыг татаж авахыг зөвшөөрдөг # Эх сурвалж robots.txt: Хэрэглэгчийн агент: Yandex Зөвшөөрөх: /Зөвшөөрөх: /каталог/авто Зөвшөөрөхгүй: /каталог # Эрэмбэлэгдсэн robots.txt: Хэрэглэгчийн агент: Yandex Зөвшөөрөх: / Зөвшөөрөхгүй: /каталог Зөвшөөрөх: /каталог/авто # хуудас татахыг хориглосон. "/каталог" # -ээр эхэлсэн боловч "/каталог/авто" -ээр эхэлсэн хуудсыг татаж авахыг зөвшөөрдөг.

Параметргүйгээр зөвшөөрч, зөвшөөрөхгүй удирдамж

Хэрэв зааварт параметр агуулаагүй бол робот өгөгдлийг дараах байдлаар зохицуулна.

Хэрэглэгчийн агент: Yandex Зөвшөөрөхгүй: # Зөвшөөрөхтэй ижил: / Хэрэглэгчийн агент: Yandex Зөвшөөрөх: #-г робот анхаарч үзэхгүй.

* ба $ тусгай тэмдэгтүүдийг ашиглана

"Зөвшөөрөх" ба "Зөвшөөрөх" зааврын замыг зааж өгөхдөө тогтмол илэрхийллийг тохируулахын тулд * ба $ тусгай тэмдэгтүүдийг ашиглаж болно. * тэмдэгт нь тэмдэгтүүдийн аль нэг дарааллыг (эсвэл аль нь ч биш) заадаг. Жишээ нь:

Хэрэглэгчийн агент: Yandex Зөвшөөрөхгүй: /cgi-bin/*.aspx # хориглох "/cgi-bin/example.aspx" # болон "/cgi-bin/private/test.aspx" Зөвшөөрөхгүй: /*хувийн # хоёуланг нь хориглоно " /хувийн", # болон "/cgi-bin/private"

$ тэмдэгт

Анхдагч байдлаар, * тэмдэгтийг robots.txt файлд тайлбарласан дүрэм бүрийн төгсгөлд хавсаргасан болно. Жишээ:

Хэрэглэгчийн агент: Yandex Зөвшөөрөхгүй: /cgi-bin* # "/cgi-bin"-ээр эхэлсэн хуудсууд руу нэвтрэхийг хориглоно. Зөвшөөрөхгүй: /cgi-bin # ижил

Дүрмийн төгсгөлд *-г цуцлахын тулд $ тэмдэгтийг ашиглана уу, жишээ нь:

User-agent: Yandex Disallow: /example$ # нь "/example", # хориглодог боловч "/example.html"-г зөвшөөрдөг Хэрэглэгчийн агент: Yandex Disallow: /жишээ нь # "/example", # болон "/example.html"-г хоёуланг нь хориглодог. " $ тэмдэгт төгсгөлд * хориглодоггүй, өөрөөр хэлбэл: Хэрэглэгчийн агент: Yandex Зөвшөөрөхгүй: /жишээ нь $ # зөвхөн "/жишээ"-г хориглодог Зөвшөөрөхгүй: /жишээ нь*$ # "Зөвшөөрөхгүй: /жишээ"-тэй яг адилхан. # /example.html болон /example хоёуланг нь хориглодог

Сайтын газрын зургийн заавар

Хэрэв та сайтынхаа бүтцийг тайлбарлахдаа Сайтын газрын зургийн файлыг ашигладаг бол Сайтын газрын зургийн удирдамжийн параметр болгон файл руу орох замыг зааж өгнө үү (хэрэв танд олон файл байгаа бол бүх замыг зааж өгнө үү).

Хэрэглэгчийн агент: Yandex Зөвшөөрөх: / sitemap: https://example.com/site_structure/my_sitemaps1.xml сайтын зураг: https://example.com/site_structure/my_sitemaps2.xml

Удирдамж нь огтлолцох шинж чанартай бөгөөд үүнийг robots.txt дахь байршлаас үл хамааран робот ашигладаг.

Робот таны файл руу орох замыг санаж, таны өгөгдлийг боловсруулж, таны сайтад дараагийн зочлох үед үр дүнг ашигладаг.

Crawl-delay заавар

Хэрэв сервер хэт ачаалалтай байгаа бөгөөд татаж авах хүсэлтийг боловсруулах боломжгүй бол Crawl-delay удирдамжийг ашиглан хайлтын робот нэг хуудсыг татаж авсны дараа өөр хуудсыг татаж авахын өмнө хүлээх хамгийн бага интервалыг (секундэд) зааж өгч болно.

Robots.txt файлыг боловсруулахад стандартаас хазайж болзошгүй роботуудтай нийцтэй байдлыг хангахын тулд "Зөвшөөрөх" ба "Зөвшөөрөх" зааврын дараа Хэрэглэгчийн агент оруулгаас эхэлдэг бүлэгт Crawl-delay удирдамжийг нэмнэ үү.

Yandex хайлтын робот нь "0.5" гэх мэт Crawl-Delay-ийн бутархай утгыг дэмждэг. Энэ нь хайлтын робот таны сайтад хагас секунд тутамд нэвтэрнэ гэсэн үг биш, гэхдээ энэ нь сайтын боловсруулалтыг хурдасгаж магадгүй юм.

Хэрэглэгчийн агент: Yandex Crawl-delay: 2 # нь 2 секундын завсарлагыг тогтоодог Хэрэглэгчийн агент: * Зөвшөөрөхгүй: /хайлтын Crawl-delay: 4.5 # нь 4.5 секундын завсарлагыг тогтоодог.

Clean-param заавар

Хэрэв таны сайтын хуудасны хаягууд контентод нөлөөлөхгүй динамик параметрүүдийг агуулж байвал (жишээлбэл, сесс, хэрэглэгчид, лавлагаалагч гэх мэт) та тэдгээрийг Clean-param удирдамжийг ашиглан тайлбарлаж болно.

Yandex робот нь давхардсан мэдээллийг дахин ачаалахгүйн тулд энэ мэдээллийг ашигладаг. Энэ нь роботын ажиллагааг сайжруулж, серверийн ачааллыг бууруулдаг.

Жишээлбэл, таны сайт дараах хуудсуудыг агуулна.

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Ref параметрийг зөвхөн хүсэлтийг аль эх сурвалжаас илгээснийг хянахад ашигладаг. Энэ нь хуудасны агуулгыг өөрчлөхгүй, хэрэв та зааварчилгааг дараах байдлаар зааж өгвөл бүх гурван URL нь book_id=123 номтой ижил хуудсыг харуулах болно.

Хэрэглэгчийн агент: Yandex Зөвшөөрөхгүй: Цэвэрлэгээ: ref /some_dir/get_book.pl

Yandex робот нь бүх хуудасны хаягийг нэг дор нэгтгэх болно.

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Хэрэв сайт дээр параметргүй хуудас байгаа бол:

www.example.com/some_dir/get_book.pl?book_id=123

робот индексжүүлсний дараа бусад бүх URL-ууд түүгээр солигдоно. Таны сайтын бусад хуудсуудыг илүү олон удаа мөлхөх болно, учир нь хуудсуудыг шинэчлэх шаардлагагүй болно:

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Зааварчилгааны синтакс

Цэвэр параметр: p0[&p1&p2&..&pn]

Эхний талбарт үл тоомсорлох параметрүүдийг & тэмдэгтээр тусгаарлана. Хоёр дахь талбарт дүрэмд хамаарах хуудасны замын угтварыг заана уу.

Угтвар нь robots.txt файлд ашигласантай төстэй хэлбэрээр тогтмол илэрхийлэл агуулж болох боловч зарим хязгаарлалттай: та зөвхөн A-Za-z0-9.-/*_ тэмдэгтүүдийг ашиглаж болно. Гэсэн хэдий ч * нь robots.txt-тэй ижил байдлаар тайлбарлагддаг. * нь үргэлж угтварын төгсгөлд хавсаргасан байдаг. Жишээ нь:

Clean-param: s /forum/showthread.php

/forum/showthread.php -ээр эхэлсэн бүх URL-д s параметрийг үл тоомсорлодог гэсэн үг. Хоёр дахь талбар нь сонголттой бөгөөд энэ тохиолдолд дүрэм нь сайтын бүх хуудсанд хамаарна. Энэ нь том жижиг үсгийн мэдрэмжтэй. Дүрмийн хамгийн их урт нь 500 тэмдэгт байна. Жишээ нь:

Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash

Нэмэлт жишээнүүд

#хэрэглэгч:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=824 Хэрэглэгч дараах #3-г агуулна. агент: Yandex Зөвшөөрөхгүй: Clean-param: s /forum/showthread.php #нь:www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php?page=? 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt нь дараахь зүйлийг агуулна: Хэрэглэгч-агент: Yandex Зөвшөөрөхгүй: Цэвэр-парам: sid /index.php #эдгээр параметрүүд хэд хэдэн байвал:www.example1.com/forum_ad.php ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt нь дараах зүйлийг агуулна: User-agent:- Clean & Diskpara: Yandex. */showthread.php #хэрэв параметрийг олон скриптэд ашиглаж байгаа бол:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e731c4417 robots.txt нь дараахь зүйлийг агуулна: Хэрэглэгч-агент: Yandex Зөвшөөрөхгүй: Цэвэр-парам: s /forum/index.php Цэвэр-парам: s /forum/showthread.php

Кирилл үсэг ашиглах

robots.txt файл болон HTTP серверийн толгой хэсэгт кирилл үсгийг ашиглахыг хориглоно.

Домэйн нэрийн хувьд Punycode ашиглана уу. Хуудасны хаягийн хувьд одоогийн сайтын бүтцэд ашигласан кодчилолтой ижил кодчилолыг ашиглана уу.

robots.txt файлын жишээ:

#Буруу: Хэрэглэгчийн агент: Yandex Зөвшөөрөхгүй: / тэрэг Сайтын зураг: site.рф/sitemap.xml #Зөв: Хэрэглэгчийн агент: Yandex Зөвшөөрөхгүй: /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 Сайтын зураг: http://xn--80aswg.xn--p1ai/sitemap.xml

Нэмэлт мэдээлэл

Yandex робот нь зөвхөн энэ хуудсанд жагсаасан robots.txt удирдамжийг дэмждэг. Дээр дурдсан файл боловсруулах дүрэм нь үндсэн стандартын өргөтгөлийг илэрхийлдэг. Бусад роботууд robots.txt агуулгыг өөрөөр тайлбарлаж болно.

Өргөтгөсөн robots.txt форматыг ашиглах үр дүн нь үндсэн стандартыг ашигладаг үр дүнгээс ялгаатай байж болно, ялангуяа:

Хэрэглэгчийн агент: Yandex Зөвшөөрөх: / Зөвшөөрөхгүй: /# өргөтгөлгүйгээр бүх зүйлийг хориглосон, учир нь "Зөвшөөрөх: /" -ийг үл тоомсорлосон, # өргөтгөлүүдийг дэмждэг, бүх зүйлийг зөвшөөрдөг Хэрэглэгчийн агент: Yandex Зөвшөөрөхгүй: /хувийн*html # өргөтгөлгүйгээр, " /private*html"-г хориглосон, # дэмжигдсэн өргөтгөлүүдтэй, "/private*html", # "/private/test.html", "/private/html/test.aspx" гэх мэтийг мөн хориглоно Хэрэглэгч- агент: Yandex Зөвшөөрөхгүй: /private$ # өргөтгөлгүй, "/private$" болон "/private$test" гэх мэтийг хориглосон, # өргөтгөл дэмждэг, зөвхөн "/private"-г хориглоно Хэрэглэгчийн агент: * Зөвшөөрөхгүй : / Хэрэглэгчийн агент: Yandex Allow: / # өргөтгөлүүдийг дэмждэггүй, учир нь мөр тасрахгүй тул # "Хэрэглэгчийн агент: Yandex"-г үл тоомсорлох болно # үр дүн нь "Зөвшөөрөхгүй: /" байх боловч Yandex робот # задлан шинжилдэг. "Хэрэглэгч-агент:" дэд мөрөнд тулгуурласан мөрүүд. # Энэ тохиолдолд Yandex роботын үр дүн нь "Зөвшөөрөх: /" Хэрэглэгчийн агент: * Зөвшөөрөхгүй: / # comment1... # comment2... # comment3... Хэрэглэгчийн агент: Yandex Allow: / # ижил өмнөх жишээн дээрх шиг (дээрхийг харна уу)

Өргөтгөсөн robots.txt форматыг ашигласан жишээ:

Хэрэглэгчийн агент: Yandex Зөвшөөрөх: /архив Зөвшөөрөхгүй: / # "/архив" агуулсан бүх зүйлийг зөвшөөрдөг; үлдсэнийг нь хориглоно Хэрэглэгч-агент: Yandex Зөвшөөрөх: /хуучирсан/хувийн/*.html$ # HTML файлуудыг "/хуучирсан/хувийн/... зам"-д зөвшөөрнө. Зөвшөөрөхгүй: /*.php$ # probibits all "* .php" сайт дээрDisallow: /*/private/ # нь # "/private/" агуулсан бүх дэд замыг хориглодог боловч дээрх Зөвшөөрөх нь хоригийн # хэсгийг үгүйсгэдэг. zip" файлууд замд # "/хуучин/" агуулсан Хэрэглэгч-агент: Yandex Зөвшөөрөхгүй: /add.php?*user= # бүх "add.php?" "хэрэглэгч" сонголттой скриптүүд

Robots.txt файлыг үүсгэхдээ робот хэмжээндээ боломжийн хязгаарлалт тавьдаг гэдгийг санах хэрэгтэй. Хэрэв файлын хэмжээ 32 КБ-аас хэтэрвэл робот нь бүх зүйлийг зөвшөөрдөг гэж үздэг бөгөөд энэ нь үүнийг ижил байдлаар тайлбарлах болно.

Robots.txt файлыг зөв тохируулснаар устгана болзошгүй асуудлууд, индексжүүлэх явцад үүсдэг.

Ялангуяа сайтын эзэмшигч нь нөөцийн үйлчилгээний болон хувийн хэсгүүдийн индексжүүлэлтийг хязгаарлах боломжтой. Хэрхэн файл үүсгэж, өөр өөр хайлтын систем, түүнчлэн алдартай CMS-д тохируулах талаар бид энэ нийтлэлд ярих болно.

robots.txt файл юунд зориулагдсан вэ?

Таны таамаглаж байгаагаар энэ файл нь хайлтын роботуудад зориулагдсан зааварчилгааг агуулж байна. Үүнийг үндсэн директорт байрлуулсан байх ёстой тул роботууд robots.txt-д заасан нөхцөлүүдийг уншсанаар хуудсыг индексжүүлж эхэлнэ.

Тиймээс, файл нь хайлтын роботуудад сайтын аль лавлахыг индексжүүлэхийг зөвшөөрсөн, аль нь энэ процесст хамаарахгүй болохыг зааж өгдөг.

Файл байгаа нь зэрэглэл тогтоох үйл явцад нөлөөлөхгүй гэдгийг харгалзан үзвэл олон сайтад robots.txt агуулаагүй байна. Гэхдээ үнэндээ тийм биш зөв зам. Robots.txt нь нөөцөд ямар давуу талтай болохыг харцгаая.

Та нөөцийг бүхэлд нь эсвэл хэсэгчлэн индексжүүлэхийг хориглож, индексжүүлэх эрх бүхий хайлтын роботуудын хүрээг хязгаарлаж болно. Та энэ процессоос нөөцийг бүрэн хамгаалах боломжтой (жишээлбэл, вэбсайт үүсгэх эсвэл дахин бүтээх үед).

Нэмж дурдахад роботын файл нь бүх төрлийн спам роботуудын эх сурвалжид хандах хандалтыг хязгаарладаг бөгөөд үүний зорилго нь сайтад байгаа эсэхийг сканнердах явдал юм. имэйл хаягууд, дараа нь спам илгээхэд ашиглагдана. Энэ нь юунд хүргэж болох талаар ярихаа больё, энэ нь ойлгомжтой.

Та хайлтын системд зориулагдаагүй, харин хэрэглэгчдийн тодорхой хүрээлэлд зориулагдсан, хувийн болон бусад ижил төстэй мэдээллийг агуулсан сайтын хэсгүүдийг индексжүүлэхээс нууж болно.

Хэрхэн зөв robots.txt үүсгэх вэ

Зөв роботуудыг янз бүрийн бүтээгчийн тусламжгүйгээр гараар хялбархан бичиж болно. Үйл явц нь ердийн тэмдэглэлийн дэвтэр файлд шаардлагатай зааврыг бичихэд хүргэдэг бөгөөд та үүнийг "робот" нэрээр хадгалж, өөрийн нөөцийн үндсэн лавлах руу байршуулах хэрэгтэй. Нэг сайтад нэг ийм файл хэрэгтэй. Энэ нь бүх холбогдох хайлтын системийн хайлтын ботуудын зааварчилгааг агуулж болно. Өөрөөр хэлбэл, хайлтын систем бүрт тусдаа файл үүсгэх шаардлагагүй.

Файлд юу бичих ёстой вэ? Хэрэглэгчийн агент ба Зөвшөөрөхгүй гэсэн хоёр удирдамжийг заавал ашиглах ёстой. Эхнийх нь энэ мессежийг аль робот руу чиглүүлэхийг тодорхойлдог бол хоёр дахь нь аль хуудас эсвэл нөөцийн лавлахыг индексжүүлэхийг хориглодог болохыг харуулдаг.

Бүх роботуудад ижил дүрмийг тохируулахын тулд та User-agent зааврын нэрийн оронд одоор тэмдэглэгээг ашиглаж болно.
Энэ тохиолдолд robots.txt файл дараах байдлаар харагдах болно.

Дашрамд дурдахад, Google-ийн хөгжүүлэгчид вэбмастеруудад robots.txt файлын хэмжээ 500 КБ-аас хэтрэхгүй байх ёстойг удаа дараа сануулж байсан. Энэ нь индексжүүлэх явцад алдаа гаргахад хүргэнэ. Хэрэв та гараар файл үүсгэсэн бол ийм хэмжээтэй "хүрэх" нь мэдээжийн хэрэг бодитой бус юм. Гэхдээ robots.txt контентыг автоматаар үүсгэдэг зарим CMS нь үүнийг илүү хүндрүүлдэг.

Аливаа хайлтын системд хялбархан файл үүсгэх боломжтой

Хэрэв та файл бичихдээ алдаа гаргахаас айдаг бол (эсвэл үүнийг хийхэд хэтэрхий залхуу байгаа бол) шаардлагатай удирдамжийг бий болгохыг бүтээгчид даатгаж болно. Энэ нь хоёр дахин хоёр шиг энгийн боловч бид түүнтэй хэрхэн ажиллах талаар товч тайлбар өгөх болно.

Эхний талбар нь нөөцийн хаягийг агуулна. Зөвхөн үүний дараа хэрэглэгч эдгээр дүрмийг тогтоосон хайлтын системийг сонгох боломжтой болно (та хэд хэдэн хайлтын системийг дараалан сонгож болно). Дараа нь та хандахыг хориглох хавтас, файлуудыг зааж өгөх, сайтын толин тусгалын хаягийг зааж өгөх, нөөцийн газрын зургийн байршлыг зааж өгөх хэрэгтэй.

Талбаруудыг бөглөхөд шаардлагатай сангууд доод талбарт орох болно. Эцсийн эцэст та тэдгээрийг txt файл руу хуулж, робот гэж нэрлэхэд л хангалттай.

Таны robots.txt файлын үр нөлөөг хэрхэн шалгах вэ

Yandex дахь файлын үйлдлийг шинжлэхийн тулд та Yandex.Webmaster хэсгийн харгалзах хуудас руу очих хэрэгтэй. Харилцах цонхонд сайтын нэрийг зааж, "татаж авах" товчийг дарна уу.

Систем нь robots.txt файлд дүн шинжилгээ хийж, хайлтын робот индексжүүлэхийг хориглосон хуудсыг мөлхөх эсэхийг зааж өгнө. Хэрэв асуудал гарвал удирдамжийг харилцах цонхонд шууд засварлаж, шалгаж, үндсэн директор доторх robots.txt файл руу хуулж буулгаж болно.

Үүнтэй төстэй үйлчилгээг Google хайлтын системээс Webmaster Tools үйлчилгээ үзүүлдэг.

WordPress, Joomla болон Ucoz-д зориулсан robots.txt файлыг үүсгэх

Манай нээлттэй орон зайд өргөн тархсан янз бүрийн CMS нь хэрэглэгчдэд өөрсдийн роботs.txt файлын хувилбаруудыг санал болгодог (эсвэл огт байхгүй). Ихэнхдээ эдгээр файлууд нь хэтэрхий түгээмэл байдаг бөгөөд хэрэглэгчийн нөөцийн шинж чанарыг харгалздаггүй, эсвэл хэд хэдэн чухал дутагдалтай байдаг.

Та тэдгээрийг гараар өөрчлөхийг оролдож болно (хэрэв танд мэдлэг дутмаг бол энэ нь тийм ч үр дүнтэй биш), эсвэл илүү мэргэжлийн хамт ажиллагсдынхаа туршлагыг ашиглаж болно. Тэдний хэлснээр бидний өмнө бүх зүйл аль хэдийн хийгдсэн. Жишээлбэл, WordPress-д зориулсан robots.txt дараах байдлаар харагдаж болно.

Мэдээжийн хэрэг www.site.ru мөрийг хэрэглэгчийн вэбсайтын хаягаар солих ёстой.

Дараах роботуудыг индексжүүлэхийг хориглоно:

Хүн бүрт
Yandex
Google
Mail.ru
Раммлер
Bing
Yahoo

Сайтын үндсэн домэйн:

Хуудас хоорондын робот шилжилтийн хоорондох хугацаа:
1 секунд 5 секунд 10 секунд 60 секунд

Сайтын газрын зураг болох sitemap.xml руу орцгооё:

Бэлэн robots.txt:

Өгөгдлийг "robots.txt" файлд хадгалж, сайтын үндсэн хавтас руу хуулна уу.

"Robots.txt Generator" хэрэгслийг юунд ашигладаг вэ?

Үйлчилгээний сайт нь танд "Robots.txt Generator" хэрэгслийг танилцуулж байгаа бөгөөд үүний тусламжтайгаар та хэдхэн секундын дотор онлайнаар robots.txt файл үүсгэх, мөн зарим хайлтын системээр сайтын хуудсыг индексжүүлэхийг хориглох боломжтой.

robots.txt гэж юу вэ

Robots.txt нь сайтын үндсэн хэсэгт байрлах, хайлтын ботуудад зориулсан зааврыг агуулсан файл юм. Аливаа эх сурвалжид зочлохдоо роботууд робот.txt файлаас танилцаж эхэлдэг - нэг төрлийн "ашиглах заавар". Нийтлэгч зааж байна энэ файлробот нөөцтэй хэрхэн харилцах хэрэгтэй. Жишээлбэл, энэ нь тодорхой хуудсуудыг индексжүүлэхийг хориглох эсвэл вэб серверээс баримт бичгийг хадгалах хоорондох хугацааны интервалыг хадгалах зөвлөмжийг агуулж болно.

Хэрэгслийн чадвар

Вэбмастер нь Yandex, Google, Mail.ru, Rambler, Bing эсвэл Yahoo! хайлтын системүүдийн роботуудыг индексжүүлэхийг хориглохоос гадна нөөцийн хуудсууд дээр хайлтын роботын шилжилтийн хооронд завсарлага тогтоож, сонгосон хуудсуудыг индексжүүлэхийг хориглож болно. сайт. Нэмж дурдахад, тусгай мөрөнд та сайтын газрын зураг руу (sitemap.xml) хүрэх замыг роботоос хайж олох боломжтой.

Хэрэгслийн бүх талбарыг бөглөж, "Create" товчийг дарсны дараа систем нь хайлтын роботуудад зориулсан файлыг автоматаар үүсгэх бөгөөд үүнийг та өөрийн сайтын үндсэн бүсэд байрлуулах шаардлагатай болно.

Robots.txt файлыг хайлтын илэрцээс хуудсыг нуухад ашиглах боломжгүй, учир нь бусад эх сурвалжууд үүнтэй холбогдож болох бөгөөд хайлтын роботууд үүнийг ямар нэг байдлаар индексжүүлэх болно. Хайлтын үр дүнд хуудсыг хаахын тулд тусгай "noindex" шошго ашиглах эсвэл нууц үг тохируулахыг бид танд сануулж байна.

Robots.txt Generator хэрэгслийг ашигласнаар та зөвхөн зөвлөгөө өгөх шинж чанартай файл үүсгэх болно гэдгийг тэмдэглэх нь зүйтэй. Мэдээжийн хэрэг, роботууд robots.txt файл дахь вэбмастеруудын өгсөн зааварчилгааг "сонсох" боловч заримдаа тэдгээрийг үл тоомсорлодог. Яагаад ийм зүйл болж байна вэ? Учир нь хайлтын робот бүр өөрийн гэсэн тохиргоотой бөгөөд үүний дагуу robots.txt файлаас хүлээн авсан мэдээллийг тайлбарладаг.

Sitemap.xml файл болон сайтын зөв robots.txt нь хайлтын роботуудаар вэб нөөцийн шаардлагатай бүх хуудсыг хурдан бөгөөд бүрэн индексжүүлэхэд хувь нэмэр оруулах зайлшгүй шаардлагатай хоёр баримт бичиг юм. Yandex болон Google-д сайтыг зөв индексжүүлэх нь хайлтын системд амжилттай блог сурталчлах түлхүүр юм.

XML форматаар сайтын газрын зураг хэрхэн хийх, яагаад хэрэгтэй байгааг би аль хэдийн бичсэн. Одоо WordPress сайтын зөв robots.txt файлыг хэрхэн үүсгэх, яагаад энэ нь ерөнхийдөө хэрэгтэй байгаа талаар ярилцъя. Нарийвчилсан мэдээлэлЭнэ файлын талаарх мэдээллийг Yandex болон Google-ээс тус тус авч болно. Би үндсэн зүйлд хүрч, жишээ болгон өөрийн файлыг ашиглан WordPress-ийн үндсэн robots.txt тохиргоонд хүрнэ.

Яагаад вэб сайтад robots.txt файл хэрэгтэй байна вэ?

robots.txt стандарт нь 1994 оны 1-р сард гарч ирсэн. Вэб нөөцийг сканнердахдаа хайлтын роботууд эхлээд хайдаг текст файл robots.txt нь сайт эсвэл блогын үндсэн хавтсанд байрладаг. Үүний тусламжтайгаар бид янз бүрийн хайлтын системийн роботуудад зориулж сайтыг индексжүүлэх тодорхой дүрмийг зааж өгч болно.

Robots.txt-г зөв тохируулснаар танд дараах боломжийг олгоно:

давхардсан болон янз бүрийн хэрэггүй хуудсыг индексээс хасах;
бидний нуухыг хүссэн хуудас, файл, хавтсыг индексжүүлэхийг хориглох;
ерөнхийдөө зарим хайлтын роботуудад индексжүүлэхээс татгалздаг (жишээлбэл, Yahoo, өрсөлдөгчдөөс ирж буй холбоосын талаархи мэдээллийг нуухын тулд);
сайтын үндсэн толин тусгалыг зааж өгөх (www-тэй эсвэл www-гүй);
sitemap sitemap.xml хүрэх замыг зааж өгнө үү.

Сайтын зөв robots.txt файлыг хэрхэн үүсгэх вэ

Энэ зорилгоор тусгай генераторууд болон залгаасууд байдаг боловч үүнийг гараар хийх нь дээр.

Та зүгээр л дурын текст засварлагч (жишээ нь Notepad эсвэл Notepad++) ашиглан robots.txt нэртэй ердийн текст файл үүсгэж, блогынхоо үндсэн хавтсанд байршуулах хэрэгтэй. Энэ файлд тодорхой удирдамж бичигдсэн байх ёстой, өөрөөр хэлбэл. Yandex, Google гэх мэт роботуудыг индексжүүлэх дүрэм.

Хэрэв та үүнд санаа зовохоос залхуурсан бол доороос би өөрийн блогоос WordPress-д зориулсан зөв robots.txt-ийн жишээг өгөх болно. Домэйн нэрийг гурван газар орлуулснаар та үүнийг ашиглаж болно.

Robots.txt үүсгэх дүрэм, заавар

Амжилтанд хүрэхийн тулд хайлтын системийн оновчлолблог та robots.txt-г үүсгэх зарим дүрмийг мэдэх хэрэгтэй:

Байхгүй эсвэл хоосон файл robots.txt гэдэг нь хайлтын системүүд вэб нөөцийн бүх агуулгыг индексжүүлэх боломжтой гэсэн үг юм.
robots.txt нь таны site.ru/robots.txt хаягаар нээгдэж, роботод 200 OK хариултын код өгч, 32 КБ-аас ихгүй хэмжээтэй байх ёстой. Нээх боломжгүй (жишээ нь 404 алдааны улмаас) эсвэл том хэмжээтэй файлыг зүгээр гэж үзнэ.
Файл дахь удирдамжийн тоо 1024-ээс хэтрэхгүй байх ёстой. Нэг мөрийн урт нь 1024 тэмдэгтээс хэтрэхгүй байх ёстой.
Хүчинтэй robots.txt файл нь олон хэллэгтэй байж болох бөгөөд тэдгээр нь тус бүр нь Хэрэглэгчийн агентын удирдамжаар эхэлж, дор хаяж нэг Зөвшөөрөхгүй байх удирдамж агуулсан байх ёстой. Ихэвчлэн тэд Google болон бусад бүх роботуудад зориулсан зааварчилгааг robots.txt дээр бичдэг бөгөөд Yandex-д тусад нь бичдэг.

Үндсэн robots.txt заавар:

Хэрэглэгч-агент – заавар нь аль хайлтын робот руу чиглэж байгааг заана.

"*" тэмдэг нь энэ нь бүх роботуудад хамаарна гэсэн үг, жишээлбэл:

Хэрэглэгч-агент: *

Хэрэв бид Yandex-д зориулж robots.txt-д дүрэм үүсгэх шаардлагатай бол бид бичнэ:

Хэрэглэгчийн агент: Yandex

Хэрэв тодорхой роботын удирдамжийг зааж өгсөн бол User-agent: * удирдамжийг харгалзан үзэхгүй.

Зөвшөөрөхгүй, Зөвшөөрөх - тус тусад нь роботуудад заасан хуудсыг индексжүүлэхийг хориглох, зөвшөөрөх. Бүх хаягийг сайтын үндэснээс зааж өгөх ёстой, i.e. гурав дахь налуу зурааснаас эхлэн. Жишээ нь:

Бүх роботууд сайтыг бүхэлд нь индексжүүлэхийг хориглох:
Хэрэглэгч-агент: *
Зөвшөөрөхгүй: /
Yandex /wp-admin-ээр эхэлсэн бүх хуудсыг индексжүүлэхийг хориглоно:
Хэрэглэгчийн агент: Yandex
Зөвшөөрөхгүй: /wp-admin
Хоосон Disallow заавар нь бүх зүйлийг индексжүүлэх боломжийг олгодог бөгөөд Allow-тай төстэй. Жишээлбэл, би Yandex сайтыг бүхэлд нь индексжүүлэхийг зөвшөөрдөг:
Хэрэглэгчийн агент: Yandex
Зөвшөөрөхгүй:
Мөн эсрэгээр, би бүх хайлтын роботуудыг бүх хуудсыг индексжүүлэхийг хориглодог:
Хэрэглэгч-агент: *
Зөвшөөрөх:
Ижил Хэрэглэгчийн агент блокийн Зөвшөөрөх болон Зөвшөөрөхгүй байх заавруудыг URL угтварын уртаар эрэмбэлж, дарааллаар гүйцэтгэнэ. Хэрэв сайтын нэг хуудсанд хэд хэдэн заавар тохиромжтой бол жагсаалтын сүүлчийнх нь хэрэгжинэ. Одоо робот удирдамжийг ашиглах үед тэдгээрийг бичсэн дараалал нь хамаагүй. Хэрэв зааврууд ижил урттай угтвартай бол эхлээд Allow-г гүйцэтгэнэ. Эдгээр дүрэм 2012 оны 3-р сарын 8-ны өдрөөс хэрэгжиж эхэлсэн. Жишээлбэл, энэ нь зөвхөн /wp-includes-ээр эхэлсэн хуудсыг индексжүүлэхийг зөвшөөрдөг:
Хэрэглэгчийн агент: Yandex
Зөвшөөрөхгүй: /
Зөвшөөрөх: /wp-үүнд орно

Sitemap - XML сайтын газрын зургийн хаягийг заана. Нэг сайт нь хэд хэдэн Sitemap заавартай байж болох бөгөөд тэдгээрийг үүрлэж болно. Сайтын индексжүүлэлтийг хурдасгахын тулд бүх Sitemap файлын хаягийг robots.txt-д зааж өгөх ёстой.

Сайтын зураг: http://site/sitemap.xml.gz
Сайтын зураг: http://site/sitemap.xml

Хост – толь роботод аль вэб сайтын толин тусгалыг голыг нь авч үзэхийг зааж өгнө.

Хэрэв сайтад хэд хэдэн хаягаар хандах боломжтой бол (жишээ нь, www болон wwwгүй) энэ нь шүүлтүүрт баригдах бүрэн давхар хуудас үүсгэдэг. Түүнчлэн, энэ тохиолдолд энэ нь индексжүүлсэн үндсэн хуудас биш байж болох ч үндсэн хуудас нь эсрэгээрээ индексээс хасагдах болно. хайлтын систем. Үүнээс урьдчилан сэргийлэхийн тулд зөвхөн Yandex-д зориулагдсан robots.txt файлд зориулагдсан Host удирдамжийг ашиглана уу. Энэ нь Disallow and Allow-ийн дараа бичигдсэн бөгөөд дараах байдалтай байна.

Хөтлөгч: вэбсайт

Crawl-delay – хуудсуудыг татаж авах хоорондын саатлыг секундээр тогтооно. Ачаалал ихтэй, сервер хүсэлтийг боловсруулах цаг байхгүй тохиолдолд хэрэглэнэ. Залуу сайтууд дээр Crawl-delay удирдамжийг ашиглахгүй байх нь дээр. Үүнийг ингэж бичсэн байна.

Хэрэглэгчийн агент: Yandex
Мөлхөх саатал: 4

Clean-param - зөвхөн Yandex дэмждэг бөгөөд хувьсагчтай давхардсан хуудсыг арилгах, тэдгээрийг нэг болгон нэгтгэхэд ашигладаг. Тиймээс Yandex робот ижил төстэй хуудсуудыг олон удаа татаж авахгүй, жишээлбэл, лавлагааны холбоостой холбоотой. Би энэ удирдамжийг хараахан ашиглаж амжаагүй байгаа ч Yandex-д зориулсан robots.txt дээрх тусламжаас нийтлэлийн эхэнд байгаа холбоосыг дагана уу, та энэ удирдамжийг дэлгэрэнгүй унших боломжтой.

Robots.txt файлд * болон $ тусгай тэмдэгтүүдийг "Зөвшөөрөх" болон "Зөвшөөрөх" зааврын замыг заах зорилгоор ашигладаг.

"*" тусгай тэмдэгт нь тэмдэгтүүдийн дарааллыг хэлнэ. Жишээ нь, Зөвшөөрөхгүй: /*?* гэдэг нь энэ тэмдэгтийн өмнө болон хойно ямар тэмдэгт орж байгаагаас үл хамааран хаяг дээр “?” гэсэн тэмдэгт гарч ирэхийг хориглоно гэсэн үг. Анхдагч байдлаар, тусгайлан заагаагүй байсан ч дүрэм бүрийн төгсгөлд тусгай тэмдэгт "*" нэмэгддэг.
"$" тэмдэг нь дүрмийн төгсгөлд байгаа "*" тэмдгийг цуцалж, хатуу тохирно гэсэн үг юм. Жишээлбэл, Disallow: /*?$ заавар нь “?” тэмдэгтээр төгссөн хуудсыг индексжүүлэхийг хориглоно.

WordPress-д зориулсан robots.txt жишээ

WordPress хөдөлгүүр дээрх блогт зориулсан миний robots.txt файлын жишээ энд байна:

User-agent: * Зөвшөөрөхгүй: /cgi-bin Зөвшөөрөхгүй: /wp-admin Зөвшөөрөхгүй: /wp-includes Зөвшөөрөхгүй: /wp-content/plugins Зөвшөөрөхгүй: /wp-content/cache Зөвшөөрөхгүй: /wp-content/themes Зөвшөөрөхгүй: / trackback Зөвшөөрөхгүй: */trackback Зөвшөөрөхгүй: */*/trackback Зөвшөөрөхгүй: /feed/ Зөвшөөрөхгүй: */*/feed/*/ Зөвшөөрөхгүй: */feed Зөвшөөрөхгүй: /*?* Зөвшөөрөхгүй: /?s= Хэрэглэгчийн агент: Yandex Зөвшөөрөхгүй: /cgi-bin Зөвшөөрөхгүй: /wp-admin Зөвшөөрөхгүй: /wp-includes Зөвшөөрөхгүй: /wp-content/plugins Зөвшөөрөхгүй: /wp-content/cache Зөвшөөрөхгүй: /wp-content/themes Зөвшөөрөхгүй: /trackback Зөвшөөрөхгүй: */ trackback Зөвшөөрөхгүй: */*/trackback Зөвшөөрөхгүй: /feed/ Зөвшөөрөхгүй: */*/feed/*/ Зөвшөөрөхгүй: */feed Зөвшөөрөхгүй: /*?* Зөвшөөрөхгүй: /?.ru/sitemap.xml..xml

WordPress-д зориулсан зөв robots.txt файлыг үүсгэж өөрийгөө хуурахгүйн тулд та энэ файлыг ашиглаж болно. Индексжүүлэхэд ямар ч асуудал байхгүй. Надад хуулбар хамгаалах скрипт байгаа тул бэлэн robots.txt файлыг татаж аваад хостинг дээрээ байршуулах нь илүү тохиромжтой байх болно. Хост болон Сайтын газрын зураг дээр миний сайтын нэрийг өөрийнхөөрөө солихоо бүү мартаарай.

WordPress-д зориулсан robots.txt файлыг зөв тохируулахад хэрэгтэй нэмэлтүүд

Хэрэв таны WordPress блог дээр модны сэтгэгдэл суулгасан бол тэдгээр нь ?replytocom= маягтын давхардсан хуудсыг үүсгэдэг. robots.txt дээр ийм хуудсуудыг Disallow: /*?* заавраар хаадаг. Гэхдээ энэ нь шийдэл биш бөгөөд хоригийг арилгаж, replytocom-той өөр аргаар тэмцэх нь дээр. Юу, .

Тиймээс, 2014 оны 7-р сарын байдлаар одоогийн robots.txt дараах байдалтай байна.

User-agent: * Зөвшөөрөхгүй: /wp-includes Зөвшөөрөхгүй: /wp-feed Зөвшөөрөхгүй: /wp-content/plugins Зөвшөөрөхгүй: /wp-content/cache Зөвшөөрөхгүй: /wp-content/themes Хэрэглэгчийн агент: Yandex Зөвшөөрөхгүй: /wp -үүнд орно Зөвшөөрөхгүй: /wp-feed Зөвшөөрөхгүй: /wp-content/plugins Зөвшөөрөхгүй: /wp-content/cache Зөвшөөрөхгүй: /wp-content/themes Хост: site.ru Хэрэглэгчийн агент: Googlebot-Image Зөвшөөрөх: /wp-content /байршуулах/ Хэрэглэгчийн агент: YandexImages Зөвшөөрөх: /wp-content/uploads/ Сайтын зураг: http://site.ru/sitemap.xml

Энэ нь дүрсийг индексжүүлэх роботуудын дүрмийг мөн тодорхойлсон.

Хэрэглэгч-агент: Mediapartners-Google
Зөвшөөрөхгүй:

Хэрэв та категори эсвэл шошго хуудсуудыг сурталчлахаар төлөвлөж байгаа бол тэдгээрийг роботуудад нээх хэрэгтэй. Жишээлбэл, блог вэбсайт дээр категориудыг индексжүүлэхээс хаадаггүй, учир нь тэд зөвхөн нийтлэлийн жижиг зарлалуудыг нийтэлдэг бөгөөд энэ нь давхардсан контентын хувьд тийм ч ач холбогдолгүй юм. Хэрэв та өвөрмөц зараар дүүрэн блогийн мэдээллийн ишлэлийг харуулахыг ашиглавал давхардал огт гарахгүй.

Хэрэв та дээрх залгаасыг ашиглаагүй бол шошго, категори, архивыг индексжүүлэхийг хориглохыг robots.txt файлдаа зааж өгч болно. Жишээлбэл, дараах мөрүүдийг нэмнэ.

Зөвшөөрөхгүй: /зохиогч/
Зөвшөөрөхгүй: /tag
Зөвшөөрөхгүй: /category/*/*
Зөвшөөрөхгүй: /20*

Yandex.Webmaster самбар дээрх robots.txt файлыг шалгаж, дараа нь хостинг руугаа дахин байршуулахаа бүү мартаарай.

Хэрэв танд robots.txt-г тохируулах нэмэлт зүйл байгаа бол энэ тухай коммент хэсэгт бичээрэй. Одоо энэ нь юу болох, сайтын зөв robots.txt файлыг хэрхэн үүсгэх, robots.txt файлд индексжүүлэхийг хэрхэн хориглох, алдааг засах тухай видеог үзээрэй.

robots.txt файл нь таны сайтын үндсэн директорт байрладаг. Жишээлбэл, www.example.com сайт дээр robots.txt файлын хаяг нь www.example.com/robots.txt шиг харагдах болно. Robots.txt файл нь роботыг хасах стандартыг дагаж мөрддөг энгийн текст файл бөгөөд нэг буюу хэд хэдэн дүрмийг багтаасан бөгөөд тэдгээр нь тус бүр нь тухайн мөлхөгчийг сайт дээрх тодорхой зам руу нэвтрэхийг хориглодог эсвэл зөвшөөрдөг.

Энд нэг жишээ байна энгийн файл robots.txt хоёр дүрэмтэй. Доорх тайлбарууд байна.

# Групп 1 Хэрэглэгчийн агент: Googlebot Зөвшөөрөхгүй: /nogooglebot/ # Бүлэг 2 Хэрэглэгчийн агент: * Зөвшөөрөх: / Сайтын зураг: http://www.example.com/sitemap.xml

Тайлбар

Googlebot нэртэй хэрэглэгчийн агент нь http://example.com/nogooglebot/ лавлах болон түүний дэд сангуудыг мөлхөж болохгүй.
Бусад бүх хэрэглэгчийн агентууд сайтыг бүхэлд нь үзэх боломжтой (орхиж болно, үр дүн нь ижил байх болно, учир нь анхдагчаар бүрэн хандалт олгогддог).
Сайтын газрын зургийн файлЭнэ сайт нь http://www.example.com/sitemap.xml хаягаар байрладаг.

Robots.txt файлтай ажиллах зарим зөвлөмжийг доор өгөв. Эдгээр файлуудыг үүсгэхэд ашигласан синтаксийн дүрмүүд нь тодорхойгүй тул та тэдгээрийг ойлгох ёстой тул бид эдгээр файлуудын синтаксийг бүрэн судлахыг зөвлөж байна.

Формат ба зохион байгуулалт

Та robots.txt файлыг UTF-8 кодчиллыг дэмждэг бараг бүх текст засварлагч дээр үүсгэж болно. Хэрэглэх хэрэггүй үг боловсруулагч, учир нь тэд ихэвчлэн файлуудыг хувийн форматаар хадгалж, хайлтын роботууд танихгүй буржгар ишлэл гэх мэт буруу тэмдэгтүүдийг нэмдэг.

Robots.txt файл үүсгэх, туршихдаа тестийн хэрэглүүрийг ашиглана уу. Энэ нь танд файлын синтаксийг шинжлэх, энэ нь таны сайт дээр хэрхэн ажиллахыг олж мэдэх боломжийг олгодог.

Файлын хэлбэр, байршилтай холбоотой дүрэм

Файл нь robots.txt нэртэй байх ёстой.
Сайт дээр зөвхөн нэг ийм файл байх ёстой.
robots.txt файлыг оруулах ёстой үндсэн директорсайт. Жишээлбэл, http://www.example.com/ сайтын бүх хуудсыг мөлхөхийг хянахын тулд robots.txt файлыг http://www.example.com/robots.txt хаягаар байрлуулах ёстой. Энэ нь дэд директорт байх ёсгүй(жишээлбэл, хаягаар http://example.com/pages/robots.txt). Хэрэв та үндсэн лавлах руу нэвтрэхэд бэрхшээлтэй байгаа бол хостинг үйлчилгээ үзүүлэгчтэйгээ холбоо барина уу. Хэрэв танд сайтын үндсэн директорт хандах эрх байхгүй бол ашиглана уу өөр аргамета шошго гэх мэт түгжээ.
robots.txt файлыг хаягт нэмж болно дэд домайнууд(жишээ нь http:// вэб сайт.example.com/robots.txt) эсвэл стандарт бус портууд (жишээлбэл, http://example.com: 8181 /robots.txt).
# тэмдэгтийн дараах аливаа бичвэрийг тайлбар гэж үзнэ.

Синтакс

robots.txt файл нь UTF-8 (ASCII тэмдэгтийн код агуулсан) кодлогдсон текст файл байх ёстой. Бусад тэмдэгтийн багцыг ашиглах боломжгүй.
robots.txt файл нь дараахаас бүрдэнэ бүлгүүд.
Тус бүр бүлэгхэд хэдэн агуулж болно дүрэм, нэг мөрөнд нэг. Эдгээр дүрмийг бас нэрлэдэг заавар.
Бүлэгт дараахь мэдээлэл орно.
- аль руу хэрэглэгчийн агентБүлгийн удирдамж хэрэгжинэ.
- хандах эрхтэй.
- Энэ агент ямар лавлах эсвэл файлд ханддаг вэ? хандалт байхгүй.
Бүлгийн зааврыг дээрээс доош уншина. Робот нь зөвхөн өөрт нь хамгийн ойр тохирох хэрэглэгчийн агенттай нэг бүлгийн дүрмийг дагаж мөрдөх болно.
Анхдагчаар үүнийг таамаглаж байнаХэрэв ямар нэгэн хуудас эсвэл лавлах руу нэвтрэхийг зөвшөөрөхгүй: дүрмээр хориглоогүй бол хэрэглэгчийн агент үүнийг боловсруулж болно.
Дүрэм жижиг үсгийн мэдрэмж. Иймээс Disallow: /file.asp дүрэм нь http://www.example.com/file.asp URL-д хамаарах боловч http://www.example.com/File.asp-д хамаарахгүй.

robots.txt файлд ашигласан заавар

Хэрэглэгч-агент: Заавал биелүүлэх заавар, бүлэгт эдгээрээс хэд хэдэн байж болно. Аль хайлтын системийг тодорхойлдог роботдүрэм үйлчлэх ёстой. Бүлэг бүр энэ мөрөөр эхэлдэг. Google Robots-тэй холбоотой ихэнх хэрэглэгчийн агентуудыг тусгай жагсаалт болон Интернет роботын мэдээллийн сангаас олж болно. Замын угтвар, дагавар эсвэл бүх замыг заахын тулд * орлуулагч тэмдэгтийг дэмждэг. Доорх жишээнд үзүүлсэн шиг * тэмдгийг ашиглан бүх мөлхөгч рүү хандах хандалтыг хаах ( AdsBot роботуудаас бусад, үүнийг тусад нь зааж өгөх ёстой). Бид танд Google роботуудын жагсаалттай танилцахыг зөвлөж байна. Жишээ нь:# Жишээ 1. Зөвхөн Googlebot-д хандах хандалтыг хаах Хэрэглэгчийн агент: Googlebot Зөвшөөрөхгүй: / # Жишээ 2. Googlebot болон AdsBot робот руу нэвтрэхийг хориглох Хэрэглэгч-агент: Googlebot Хэрэглэгчийн агент: AdsBot-Google Disallow: / # Жишээ 3. AdsBot Хэрэглэгчийн агентаас бусад бүх роботууд: * Зөвшөөрөхгүй: /
Зөвшөөрөхгүй: . Дээр тодорхойлсон хэрэглэгчийн агент мөлхөх боломжгүй үндсэн домэйнтэй холбоотой лавлах эсвэл хуудсыг заана. Хэрэв энэ хуудас бол хөтчийн хаягийн мөрөнд байгаа шиг түүнд хүрэх замыг бүрэн зааж өгөх ёстой. Хэрэв энэ нь лавлах бол зам нь ташуу зураасаар төгсөх ёстой (/). Замын угтвар, дагавар эсвэл бүх замыг заахын тулд * орлуулагч тэмдэгтийг дэмждэг.
Зөвшөөрөх: Дор хаяж нэг "Зөвшөөрөх:" эсвэл "Зөвшөөрөх:" заавар бүлэг бүрт байх ёстой. Дээр тодорхойлсон хэрэглэгчийн агентын мөлхөж болох үндсэн домэйнтэй холбоотой лавлах эсвэл хуудас руу заана. Зөвшөөрөхгүй байх зааврыг хүчингүй болгож, сканнердахаар хаагдсан директор доторх дэд директор эсвэл хуудсыг скан хийхийг зөвшөөрөхөд ашигладаг. Хэрэв энэ нь хуудас бол хөтчийн хаягийн мөрөнд байгаа шиг түүнд хүрэх замыг бүрэн зааж өгөх ёстой. Хэрэв энэ нь лавлах бол зам нь ташуу зураасаар төгсөх ёстой (/). Замын угтвар, дагавар эсвэл бүх замыг заахын тулд * орлуулагч тэмдэгтийг дэмждэг.
Сайтын газрын зураг: Нэмэлт заавар нь файлд хэд хэдэн байж болно.Энэ сайтад ашигласан Сайтын газрын зургийн байршлыг заана. URL бүрэн байх ёстой. Google нь http болон https угтвар, www элементтэй эсвэл элементгүйгээр URL хувилбаруудыг боловсруулж, баталгаажуулдаггүй. Сайтын газрын зурагямар контентыг Google-д хэлээрэй хэрэгтэйсканнердаж, үүнийг агуулгаас хэрхэн ялгах вэ Чадахэсвэл энэ нь хориотойсканнердах. Жишээ:Сайтын зураг: https://example.com/sitemap.xml Сайтын зураг: http://www.example.com/sitemap.xml

Бусад дүрмийг үл тоомсорлодог.

Өөр нэг жишээ

robots.txt файл нь бүлгүүдээс бүрдэнэ. Тэд тус бүр нь дүрэм журмыг дагаж мөрдөх ёстой роботыг тодорхойлдог User-агент шугамаар эхэлдэг. Доорх нь хоёр бүлэг, хоёуланд нь тайлбар тайлбар бүхий файлын жишээ юм.

# Googlebot-ийн example.com/directory1/... болон example.com/directory2/... руу хандахыг хориглох # гэхдээ directory2/subdirectory1/... руу хандахыг зөвшөөрөх. Хэрэглэгчийн агент: googlebot Зөвшөөрөхгүй: / лавлах1/ Зөвшөөрөхгүй: / лавлах2/ Зөвшөөрөх: / лавлах2/ дэд директор1/ # Сайтыг бүхэлд нь өөр хайлтын систем рүү нэвтрэхийг хоригло. Хэрэглэгчийн агент: anothercrawler Зөвшөөрөхгүй: /

robots.txt файлын бүрэн синтакс

Бүрэн синтаксийг энэ нийтлэлд тайлбарласан болно. Robots.txt файлын синтакс дээр зарим нэг чухал нюансууд байгаа тул бид танд үүнтэй танилцахыг зөвлөж байна.

Хэрэгтэй дүрэм

Robots.txt файлын нийтлэг дүрмүүд энд байна:

Дүрэм	Жишээ
Сайтыг бүхэлд нь мөлхөхийг хориглоно.Зарим тохиолдолд сайтын URL-ууд нь мөлхөөгүй байсан ч индекст байж болохыг анхаарна уу. Энэ дүрэм нь AdsBot роботуудад хамаарахгүй бөгөөд үүнийг тусад нь зааж өгөх ёстой гэдгийг анхаарна уу.	Хэрэглэгчийн агент: * Зөвшөөрөхгүй: /
Лавлах болон түүний бүх агуулгыг скан хийхээс урьдчилан сэргийлэх, лавлах нэрний ард налуу зураас тавина. Хамгаалалтын хувьд robots.txt файлыг бүү ашигла нууц мэдээлэл! Эдгээр зорилгоор баталгаажуулалтыг ашиглах ёстой. Robots.txt файлаар мөлхөхөөс сэргийлсэн URL-уудыг индексжүүлж болох ба robots.txt файлын агуулгыг дурын хэрэглэгч үзэж, нууц мэдээлэл бүхий файлуудын байршлыг илрүүлэх боломжтой.	Хэрэглэгчийн агент: * Зөвшөөрөхгүй: /хуанли/ Зөвшөөрөхгүй: /хог/
Зөвхөн нэг мөлхөгчөөр мөлхөхийг зөвшөөрөх	Хэрэглэгчийн агент: Googlebot-news Зөвшөөрөх: / Хэрэглэгчийн агент: * Зөвшөөрөхгүй: /
Нэгээс бусад бүх мөлхөгчийг мөлхөхийг зөвшөөрөх	Хэрэглэгчийн агент: Шаардлагагүйбот Зөвшөөрөхгүй: / Хэрэглэгчийн агент: * Зөвшөөрөх: /
Тодорхой хуудсыг мөлхөхөөс урьдчилан сэргийлэхийн тулд, ташуу зураасны дараа энэ хуудсыг зааж өгнө үү.	Хэрэглэгчийн агент: * Зөвшөөрөхгүй: /private_file.html
Google Images роботоос тодорхой зургийг нуух	Хэрэглэгчийн агент: Googlebot-Image Зөвшөөрөхгүй: /images/dogs.jpg
Google Images роботоос өөрийн сайтын бүх зургийг нуух	Хэрэглэгчийн агент: Googlebot-Image Зөвшөөрөхгүй: /
Тодорхой төрлийн бүх файлыг сканнердахаас урьдчилан сэргийлэх(В энэ тохиолдолд GIF)	Хэрэглэгчийн агент: Googlebot Зөвшөөрөхгүй: /*.gif$
Таны сайтын зарим хуудсуудыг хаах боловч тэдгээрт AdSense зар харуулах, Mediapartners-Google-ээс бусад бүх роботуудад Зөвшөөрөхгүй дүрмийг ашиглана уу. Үүний үр дүнд энэ робот нь тухайн хэрэглэгчдэд үзүүлэх зарыг сонгохын тулд хайлтын үр дүнгээс хасагдсан хуудсуудад хандах боломжтой болно.	Хэрэглэгчийн агент: * Зөвшөөрөхгүй: / Хэрэглэгчийн агент: Mediapartners-Google Зөвшөөрөх: /
-ээр төгссөн URL-г зааж өгөх тодорхой хэсэг , $ тэмдгийг ашиглана уу. Жишээлбэл, .xls-ээр төгссөн URL-н хувьд дараах кодыг ашиглана уу:	Хэрэглэгчийн агент: Googlebot Зөвшөөрөхгүй: /*.xls$

Энэ мэдээлэл хэрэг болсон уу?

Энэ нийтлэлийг хэрхэн сайжруулах вэ?