Robot txt faylini qanday sozlash kerak. Robotlar txt faylini o'rnatish bo'yicha tavsiyalar

Uy / Operatsion tizimlar

Robots.txt - qidiruv tizimi robotlari uchun sayt indekslash parametrlarini o'z ichiga olgan matnli fayl.

robots.txt faylini qanday sozlash kerak

    Matn muharririda robots.txt nomli fayl yarating va uni quyidagi ko‘rsatmalardan foydalanib to‘ldiring.

    Yandex.Webmaster xizmatida faylni tekshiring (menyuda Robots.txt tahlili).

    Faylni saytingizning ildiz katalogiga yuklang.

Foydalanuvchi-agent direktivasi

YandexMedia - multimedia ma'lumotlarini indekslaydi.

Agar ma'lum bir robot uchun ko'rsatmalar mavjud bo'lsa, User-agent: Yahoo va User-agent: * direktivalari ishlatilmaydi.

Foydalanuvchi-agent: YandexBot # faqat asosiy indekslash roboti tomonidan qo'llaniladi Ruxsat berish: /*id= Foydalanuvchi-agent: Yandex # barcha Yandex robotlari tomonidan qo'llaniladi Ruxsat bermaslik: /*sid= # asosiy indekslash robotidan tashqari User-agent : * # Yandex robotlari tomonidan ishlatilmaydi Ruxsat bermang: /cgi-bin

Yo'l qo'ymaslik va ruxsat berish ko'rsatmalari

Robotning saytingizga yoki uning ma'lum bo'limlariga kirishini taqiqlash uchun "Ruxsat berish" direktivasidan foydalaning.

Foydalanuvchi-agent: YandexDisallow: / # butun saytga kirishni bloklaydi Foydalanuvchi-agent: YandexDisallow: /cgi-bin # “/cgi-bin” bilan boshlanadigan # sahifalarga kirishni bloklaydi

Standartga ko'ra, har bir User-agent direktivasi oldiga bo'sh qator qo'shishingiz kerak.

# belgi dizayn sharhi. Bu belgidan keyingi hamma narsa, birinchi qator uzilishigacha e'tiborga olinmaydi.

Robotga saytning muayyan qismlariga yoki butun saytga kirishiga ruxsat berish uchun Allow direktivasidan foydalaning.

Foydalanuvchi-agent: Yandex Allow: /cgi-bin Ruxsat berish: / # "/cgi-bin" bilan boshlanadigan # sahifalardan tashqari hech narsani yuklab olishni taqiqlaydi.

Eslatma. User-agent , Disallow va Allow direktivalari o'rtasida bo'sh qatorlarga ruxsat berilmaydi.

Direktivlarni birlashtirish

Tegishli User-agent blokidagi "Ruxsat berish" va "Ruxsat berish" direktivalari URL prefiks uzunligi bo'yicha (eng qisqadan eng uzungacha) saralanadi va tartibda qo'llaniladi. Agar ma'lum bir sayt sahifasiga bir nechta ko'rsatmalar mos kelsa, robot tartiblangan ro'yxatdagi oxirgisini tanlaydi. Shunday qilib, robots.txt faylidagi direktivalar tartibi ularning robot tomonidan ishlatilishiga ta'sir qilmaydi.

# Manba robots.txt: User-agent: Yandex Allow: /catalog Disallow: / # Sorted robots.txt: User-agent: Yandex Disallow: / Allow: /catalog # faqat “/catalog” bilan boshlanadigan sahifalarni yuklab olishga ruxsat beradi # Manba robots.txt: Foydalanuvchi-agent: Yandex Ruxsat berish: /Ruxsat berish: /katalog/avto Ruxsat berish: /katalog # Saralangan robots.txt: Foydalanuvchi-agent: Yandex Ruxsat berish: / Ruxsat berish: /katalog Ruxsat berish: /catalog/auto # sahifalarni yuklab olishni taqiqlaydi. "/catalog" # bilan boshlanadi, lekin "/catalog/auto" bilan boshlanadigan sahifalarni yuklab olish imkonini beradi.

Parametrlarsiz ruxsat berish va taqiqlash direktivalari

Agar ko'rsatmalarda parametrlar bo'lmasa, robot ma'lumotlarni quyidagicha ishlaydi:

Foydalanuvchi-agent: Yandex Ruxsat bermaslik: # Ruxsat berish bilan bir xil: / Foydalanuvchi-agent: Yandex Ruxsat berish: # robot tomonidan hisobga olinmaydi

* va $ maxsus belgilaridan foydalanish

Ruxsat berish va taqiqlash direktivalari uchun yo'llarni belgilashda muntazam ifodalarni o'rnatish uchun * va $ maxsus belgilaridan foydalanishingiz mumkin. * belgisi har qanday belgilar ketma-ketligini (yoki hech birini) bildiradi. Misollar:

Foydalanuvchi-agent: Yandex taqiqlash: /cgi-bin/*.aspx # taqiqlar "/cgi-bin/example.aspx" # va "/cgi-bin/private/test.aspx" Ruxsat bermaslik: /*private # ikkalasini ham taqiqlaydi " /private", # va "/cgi-bin/private"

$ belgisi

Odatiy bo'lib, * belgisi robots.txt faylida tasvirlangan har bir qoidaning oxiriga qo'shiladi. Misol:

Foydalanuvchi-agent: Yandex Taqiqlash: /cgi-bin* # # "/cgi-bin" bilan boshlanadigan sahifalarga kirishni bloklaydi. Ruxsat bermaslik: /cgi-bin # xuddi shunday

Qoida oxiridagi * belgisini bekor qilish uchun $ belgisidan foydalaning, masalan:

User-agent: Yandex Disallow: /example$ # "/example" ni taqiqlaydi, # lekin ruxsat beradi "/example.html" Foydalanuvchi agenti: Yandex Disallow: /misol # "/example", # va "/example.html" ni ham taqiqlaydi " $ belgisi oxirida * taqiqlamaydi, ya'ni: Foydalanuvchi-agent: Yandex Taqiqlash: /misol$ # faqat "/misol" ni taqiqlaydi. # /example.html va /example ikkalasini ham taqiqlaydi

Sayt xaritasi direktivasi

Agar siz saytingiz tuzilishini tavsiflash uchun Sayt xaritasi faylidan foydalansangiz, Sayt xaritasi direktivasi parametri sifatida faylga yoʻlni koʻrsating (agar sizda bir nechta fayl boʻlsa, barcha yoʻllarni koʻrsating. Misol:

Foydalanuvchi-agent: Yandex Allow: / sayt xaritasi: https://example.com/site_structure/my_sitemaps1.xml sayt xaritasi: https://example.com/site_structure/my_sitemaps2.xml

Direktiv kesishuvdir, ya'ni robots.txt-dagi joylashuvidan qat'i nazar, u robot tomonidan qo'llaniladi.

Robot faylingizga yo'lni eslab qoladi, ma'lumotlaringizni qayta ishlaydi va saytingizga keyingi tashrif davomida natijalardan foydalanadi.

Crawl-delay direktivasi

Agar server haddan tashqari yuklangan bo'lsa va yuklab olish so'rovlarini qayta ishlash imkoni bo'lmasa, Crawl-delay direktivasidan foydalaning, siz qidiruv robotining bir sahifani yuklab olgandan keyin boshqasini yuklab olishni boshlashdan oldin kutishi uchun minimal intervalni (soniyalarda) belgilashingiz mumkin.

robots.txt faylini qayta ishlashda standartdan chetga chiqishi mumkin boʻlgan robotlar bilan moslikni saqlab qolish uchun “Ruxsat berish” va “Ruxsat berish” direktivalaridan soʻng “Foydalanuvchi-agent” yozuvi bilan boshlanadigan guruhga “Crawl-delay” direktivasini qoʻshing.

Yandex qidiruv roboti Crawl-Delay uchun kasr qiymatlarini qo'llab-quvvatlaydi, masalan, "0,5". Bu qidiruv roboti saytingizga har yarim soniyada kirishini anglatmaydi, lekin bu saytga ishlov berishni tezlashtirishi mumkin.

Foydalanuvchi-agent: Yandex Crawl-kechikish: 2 # 2 soniyalik tanaffusni o'rnatadi Foydalanuvchi-agent: * Ruxsat bermaslik: /search Ko'rish kechikishi: 4,5 # 4,5 soniyalik tanaffusni o'rnatadi

Clean-param direktivasi

Agar sizning sayt sahifangiz manzillari tarkibga ta'sir qilmaydigan dinamik parametrlarni o'z ichiga olsa (masalan, sessiyalar identifikatorlari, foydalanuvchilar, havolalar va boshqalar), ularni Clean-param direktivasi yordamida tavsiflashingiz mumkin.

Yandex roboti ushbu ma'lumotdan takroriy ma'lumotlarni qayta yuklamaslik uchun foydalanadi. Bu robotning samaradorligini oshiradi va server yukini kamaytiradi.

Masalan, sizning saytingizda quyidagi sahifalar mavjud:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Ref parametri faqat so'rov qaysi manbadan yuborilganligini kuzatish uchun ishlatiladi. U sahifa mazmunini o'zgartirmaydi, agar siz direktivani quyidagi tarzda ko'rsatsangiz, uchta URL ham bir xil sahifani ko'rsatadi.

Foydalanuvchi-agent: Yandex taqiqlash: Clean-param: ref /some_dir/get_book.pl

Yandex roboti barcha sahifa manzillarini bir joyga jamlaydi:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Agar saytda parametrlarsiz sahifa mavjud bo'lsa:

www.example.com/some_dir/get_book.pl?book_id=123

robot uni indekslagandan so'ng boshqa barcha URL manzillar u bilan almashtiriladi. Saytingizning boshqa sahifalari tez-tez tekshiriladi, chunki sahifalarni yangilashga hojat qolmaydi:

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Direktiv sintaksisi

Clean-param: p0[&p1&p2&..&pn]

Birinchi maydonda e'tiborga olinmasligi kerak bo'lgan parametrlarni & belgisi bilan ajrating. Ikkinchi maydonda qoida qo'llanilishi kerak bo'lgan sahifalar uchun yo'l prefiksini ko'rsating.

Prefiks robots.txt faylida ishlatiladigan formatga o'xshash formatdagi muntazam ifodani o'z ichiga olishi mumkin, ammo ba'zi cheklovlar bilan: siz faqat A-Za-z0-9.-/*_ belgilaridan foydalanishingiz mumkin. Biroq, * robots.txt dagi kabi talqin qilinadi. A * har doim prefiksning oxiriga bevosita qo'shiladi. Masalan:

Clean-param: s /forum/showthread.php

/forum/showthread.php bilan boshlanadigan barcha URL manzillar uchun s parametri e'tiborga olinmasligini bildiradi. Ikkinchi maydon ixtiyoriydir va bu holda qoida saytning barcha sahifalariga tegishli bo'ladi. Katta-kichik harf sezgir. Qoidaning maksimal uzunligi 500 belgidan iborat. Masalan:

Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash

Qo'shimcha misollar

#kabi manzillar uchun:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=82 foydalanuvchiga quyidagilar kiradi: #34-bot. agent: Yandex ruxsat bermaslik: Clean-param: s /forum/showthread.php #kabi manzillar uchun:www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php?page= 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt quyidagi ma'lumotlarni o'z ichiga oladi: Foydalanuvchi-agent: Yandex Ruxsat berish: Clean-param: sid /index.php #agar ushbu parametrlardan bir nechtasi bo'lsa:www.example1.com/forum_old/showp ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt quyidagi ma'lumotlarni o'z ichiga oladi: User-agent:- Yandex & Disparalelow uchun: */showthread.php #agar parametr bir nechta skriptlarda ishlatilsa:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e731c741a #731c41a robots.txt quyidagi ma'lumotlarni o'z ichiga oladi: Foydalanuvchi-agent: Yandex Disallow: Clean-param: s /forum/index.php Clean-param: s /forum/showthread.php

Kirill harflaridan foydalanish

Robots.txt fayli va HTTP server sarlavhalarida kirill alifbosidan foydalanishga ruxsat berilmagan.

Domen nomlari uchun Punycode dan foydalaning. Sahifa manzillari uchun joriy sayt tuzilishi uchun ishlatiladigan kodlashdan foydalaning.

robots.txt fayliga misol:

#Noto'g'ri: User-agent: Yandex Disallow: / cart Sayt xaritasi: site.rf/sitemap.xml #To'g'ri: Foydalanuvchi-agent: Yandex Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 Sayt xaritasi: http://xn--80aswg.xn--p1ai/sitemap.xml

Qo'shimcha ma'lumot

Yandex roboti faqat ushbu sahifada keltirilgan robots.txt direktivalarini qo'llab-quvvatlaydi. Yuqorida tavsiflangan fayllarni qayta ishlash qoidalari asosiy standartning kengaytmasini ifodalaydi. Boshqa robotlar robots.txt mazmunini boshqacha talqin qilishlari mumkin.

Kengaytirilgan robots.txt formatidan foydalanish natijalari asosiy standartdan foydalanadigan natijalardan farq qilishi mumkin, xususan:

User-agent: Yandex Allow: / Disallow: /# kengaytmalarsiz hamma narsa taqiqlangan, chunki "Ruxsat berish: /" e'tiborga olinmagan, # kengaytmalar qo'llab-quvvatlangan, hamma narsaga ruxsat berilgan Foydalanuvchi-agent: Yandex Ruxsat berish: /private*html # kengaytmasiz, " /private*html" taqiqlangan, # kengaytmalari qo'llab-quvvatlangan, "/private*html", # "/private/test.html", "/private/html/test.aspx" va boshqalar ham taqiqlangan Foydalanuvchi- agent: Yandex Disallow: /private$ # qo'llab-quvvatlanadigan kengaytmalarsiz, "/private$" va "/private$test" va hokazolar taqiqlangan, # kengaytmalar qo'llab-quvvatlangan, faqat "/private" taqiqlangan Foydalanuvchi-agent: * Ruxsat bermaslik : / User-agent: Yandex Allow: / # kengaytmalarsiz qo'llab-quvvatlanadi, yo'qolgan qator uzilishi tufayli # "Foydalanuvchi-agent: Yandex" e'tiborga olinmaydi # natijada "Ruxsat bermaslik: /" bo'ladi, lekin Yandex roboti # tahlil qiladi. "User-agent:" pastki qatoriga asoslangan qatorlar. # Bunday holda, Yandex robotining natijasi "Ruxsat berish: /" Foydalanuvchi-agent: * Ruxsat berish: / # comment1... # comment2... # comment3... User-agent: Yandex Allow: / # bir xil oldingi misolda bo'lgani kabi (yuqoriga qarang)

Kengaytirilgan robots.txt formatidan foydalanishga misollar:

Foydalanuvchi-agent: Yandex Ruxsat berish: /arxiv Ruxsat berish: / # "/arxiv" ni o'z ichiga olgan hamma narsaga ruxsat beradi; qolganlari taqiqlangan Foydalanuvchi-agent: Yandex Allow: /eskirgan/private/*.html$ # HTML fayllarga ruxsat beradi # "/eskirgan/private/... yo'lida" Ruxsat bermaslik: /*.php$ # probibits all "* .php" saytidaDisallow: /*/private/ # # "/private/" ni o'z ichiga olgan barcha pastki yo'llarni taqiqlaydi, lekin yuqoridagi "Ruxsat berish" taqiqning # qismini rad etadi. Ruxsat berish: /*/old/*.zip$ # barcha "*. zip" yo'lida # "/old/" ni o'z ichiga olgan fayllar Foydalanuvchi-agent: Yandex Ruxsat bermaslik: /add.php?*user= # barcha "add.php?" "foydalanuvchi" opsiyasi bilan skriptlar

Robots.txt faylini yaratishda robot uning o'lchamiga oqilona chegara qo'yishini yodda tutishingiz kerak. Agar fayl hajmi 32 KB dan oshsa, robot hamma narsaga ruxsat beradi deb hisoblaydi, ya'ni u xuddi shunday talqin qilinadi.

Robots.txt faylini to'g'ri o'rnatish yo'q qiladi mumkin bo'lgan muammolar, indekslash paytida paydo bo'ladi.

Xususan, sayt egasi resursning xizmat va shaxsiy bo'limlarini indekslashni cheklash imkoniyatiga ega. Faylni qanday yaratish va uni turli xil qidiruv tizimlari, shuningdek, mashhur CMS uchun sozlash - biz ushbu nashrda gaplashamiz.

robots.txt fayli nima uchun?

Siz taxmin qilganingizdek, ushbu faylda qidiruv botlari uchun mo'ljallangan ko'rsatmalar mavjud. U ildiz katalogiga joylashtirilishi kerak, shuning uchun botlar robots.txt da ko'rsatilgan shartlarni o'qib, sahifani indekslashni boshlaydi.

Shunday qilib, fayl qidiruv robotlariga saytning qaysi kataloglarini indekslash uchun ruxsat berilganligini va qaysilari ushbu jarayonga bo'ysunmasligini ko'rsatadi.

Faylning mavjudligi reyting jarayoniga ta'sir qilmasligini hisobga olsak, ko'pgina saytlarda robots.txt mavjud emas. Lekin bu aslida emas to'g'ri yo'l. Keling, robots.txt ning resursga beradigan afzalliklarini ko'rib chiqaylik.

Siz resursni to'liq yoki qisman indekslashni taqiqlashingiz va indekslashni amalga oshirish huquqiga ega bo'lgan qidiruv robotlari doirasini cheklashingiz mumkin. Siz resursni ushbu jarayondan to'liq himoya qilishingiz mumkin (masalan, veb-sayt yaratish yoki rekonstruksiya qilishda).

Bundan tashqari, robotlar fayli barcha turdagi spam-robotlarning resursga kirishini cheklaydi, ularning maqsadi saytni mavjudligi uchun skanerlashdir. elektron pochta manzillari, keyin spam yuborish uchun ishlatiladi. Bu nimaga olib kelishi mumkinligi haqida to'xtalmaylik - bu tushunarli.

Saytning qidiruv tizimlari uchun emas, balki ma'lum bir foydalanuvchilar doirasi uchun, shaxsiy va boshqa shunga o'xshash ma'lumotlarni o'z ichiga olgan bo'limlarni indekslashdan yashirishingiz mumkin.

To'g'ri robots.txt faylini qanday yaratish mumkin

To'g'ri robotlarni turli konstruktorlarning yordamiga murojaat qilmasdan osongina qo'lda yozish mumkin. Jarayon oddiy bloknot faylida kerakli ko'rsatmalarni yozishdan iborat bo'lib, uni "robotlar" nomi ostida saqlashingiz va o'z manbangizning asosiy katalogiga yuklashingiz kerak. Bitta sayt uchun shunday fayl kerak. Unda barcha tegishli qidiruv tizimlarining qidiruv botlari uchun ko'rsatmalar bo'lishi mumkin. Ya'ni, har bir qidiruv tizimi uchun alohida fayl yaratishning hojati yo'q.

Faylga nima yozilishi kerak? Ikki direktivdan foydalanish majburiydir: User-agent va Disallow. Birinchisi, ushbu xabar qaysi botga qaratilganligini aniqlaydi, ikkinchisi qaysi sahifa yoki resurs katalogini indekslash taqiqlanganligini ko'rsatadi.

Barcha botlar uchun bir xil qoidalarni o'rnatish uchun siz User-agent direktivasidagi nom o'rniga yulduzcha belgisidan foydalanishingiz mumkin.
Bu holda robots.txt fayli quyidagicha ko'rinadi:

Aytgancha, Google ishlab chiquvchilari robots.txt fayli hajmi 500 KB dan oshmasligi kerakligi haqida webmasterlarga qayta-qayta eslatishgan. Bu, albatta, indeksatsiya paytida xatolarga olib keladi. Agar siz faylni qo'lda yaratsangiz, unda bunday hajmga "etish", albatta, haqiqiy emas. Ammo robots.txt kontentini avtomatik ravishda yaratadigan ba'zi CMSlar uni sezilarli darajada og'irlashtirishi mumkin.

Har qanday qidiruv tizimi uchun osongina fayl yarating

Agar siz faylni yozishda xato qilishdan qo'rqsangiz (yoki buni qilishga dangasa bo'lsangiz), kerakli ko'rsatmalarni yaratishni konstruktorga topshirishingiz mumkin. Bu ikki marta ikki barobar oddiy, ammo biz u bilan qanday ishlash haqida qisqacha tushuntirish beramiz.

Birinchi maydon manba manzilini o'z ichiga oladi. Shundan keyingina foydalanuvchi ushbu qoidalar o'rnatilgan qidiruv tizimini tanlash imkoniyatiga ega bo'ladi (siz bir nechta qidiruv tizimini ketma-ket tanlashingiz mumkin). Keyinchalik, kirish taqiqlanadigan papkalar va fayllarni ko'rsatishingiz, sayt oynasining manzilini ko'rsatishingiz va resurs xaritasining joylashishini ko'rsatishingiz kerak.

Maydonlarni to'ldirganingizda, pastki maydonga kerakli kataloglar kiritiladi. Oxirida qilishingiz kerak bo'lgan yagona narsa ularni txt fayliga nusxalash va unga robotlar nomini berishdir.

Robots.txt faylingiz samaradorligini qanday tekshirish mumkin

Yandex-da faylning harakatini tahlil qilish uchun siz Yandex.Webmaster bo'limidagi tegishli sahifaga o'tishingiz kerak. Muloqot oynasida sayt nomini belgilang va "Yuklab olish" tugmasini bosing.

Tizim robots.txt faylini tahlil qiladi va qidiruv roboti indekslash taqiqlangan sahifalarni tekshiradimi yoki yo'qligini ko'rsatadi. Muammolar yuzaga kelsa, direktivalar to'g'ridan-to'g'ri muloqot oynasida tahrirlanishi va sinovdan o'tkazilishi, so'ngra nusxa ko'chirilishi va ildiz katalogidagi robots.txt faylingizga joylashtirilishi mumkin.

Shunga o'xshash xizmat Google qidiruv tizimidan Webmaster Tools xizmati tomonidan taqdim etiladi.

WordPress, Joomla va Ucoz uchun robots.txt yaratish

Bizning ochiq maydonlarimizda keng ommalashgan turli xil CMS-lar foydalanuvchilarga robots.txt fayllarining o'z versiyalarini taklif qiladi (yoki ular umuman yo'q). Ko'pincha bu fayllar juda universaldir va foydalanuvchi resursining xususiyatlarini hisobga olmaydi yoki bir qator muhim kamchiliklarga ega.

Siz ularga qo'lda o'zgartirishlar kiritishga harakat qilishingiz mumkin (agar sizda bilim bo'lmasa, bu unchalik samarali emas) yoki ko'proq professional hamkasblarning tajribasidan foydalanishingiz mumkin. Ular aytganidek, bizdan oldin hamma narsa allaqachon qilingan. Misol uchun, WordPress uchun robots.txt quyidagicha ko'rinishi mumkin:


www.site.ru liniyasi, albatta, foydalanuvchi veb-saytining manzili bilan almashtirilishi kerak.

Quyidagi botlarni indekslashni taqiqlash:

Hamma uchun
Yandex
Google
Mail.ru
Rammler
Bing
Yahoo

Asosiy sayt domeni:

Sahifalar bo'ylab robot o'tishlari orasidagi vaqt tugashi:
1 soniya 5 soniya 10 soniya 60 soniya

Keling, sayt xaritasiga, sitemap.xml ga o'tamiz:

Tayyor robots.txt:

Ma'lumotlarni "robots.txt" fayliga saqlang va uni saytning ildiz papkasiga nusxalang.


"Robots.txt Generator" vositasi nima uchun ishlatiladi?

Xizmat sayti sizga "Robots.txt Generator" vositasini taqdim etadi, uning yordamida siz bir necha soniya ichida onlayn ravishda robots.txt faylini yaratishingiz, shuningdek, ma'lum qidiruv tizimlari tomonidan sayt sahifalarini indekslashni taqiqlashni o'rnatishingiz mumkin.

robots.txt nima

Robots.txt - bu saytning ildizida joylashgan va qidiruv botlari uchun ko'rsatmalarni o'z ichiga olgan fayl. Har qanday resursga tashrif buyurganingizda, robotlar u bilan robots.txt faylidan tanishishni boshlaydilar - bu "foydalanish bo'yicha ko'rsatmalar". Nashriyot bildiradi bu fayl robotning resurs bilan qanday ishlashi kerak. Misol uchun, unda ma'lum sahifalarni indekslashni taqiqlash yoki veb-serverdan hujjatlarni saqlash o'rtasidagi vaqt oralig'ini saqlash tavsiyasi bo'lishi mumkin.

Asbob imkoniyatlari

Veb-master Yandex, Google, Mail.ru, Rambler, Bing yoki Yahoo! qidiruv tizimlarining robotlari tomonidan indeksatsiya qilishni taqiqlashi mumkin, shuningdek, resurs sahifalarida qidiruv robotlarining o'tishlari o'rtasida taym-out o'rnatishi va tanlangan sahifalarni indekslashni taqiqlashi mumkin. sayt. Bundan tashqari, maxsus satrda siz robotlarni qidirish uchun sayt xaritasiga (sitemap.xml) yo'lni ko'rsatishingiz mumkin.

Asbobning barcha maydonlarini to'ldirib, "Yaratish" tugmasini bosganingizdan so'ng, tizim avtomatik ravishda qidiruv botlari uchun faylni yaratadi, uni saytingizning ildiz zonasiga joylashtirishingiz kerak bo'ladi.

Iltimos, robots.txt faylidan sahifani qidiruv natijalaridan yashirish uchun ishlatib bo'lmaydi, chunki boshqa manbalar unga havola qilishi mumkin va qidiruv robotlari uni u yoki bu tarzda indekslaydi. Sizga shuni eslatib o'tamizki, qidiruv natijalarida sahifani bloklash uchun maxsus "noindex" tegidan foydalaning yoki parol o'rnating.

Shuni ham ta'kidlash kerakki, Robots.txt Generator vositasidan foydalanib, siz sof maslahat xarakteridagi faylni yaratasiz. Albatta, botlar robots.txt faylida veb-ustalar tomonidan qoldirilgan ko'rsatmalarni "tinglashadi", lekin ba'zida ular ularga e'tibor bermaydilar. Nima uchun bu sodir bo'lmoqda? Chunki har bir qidiruv robotining o'z sozlamalari bor, unga ko'ra u robots.txt faylidan olingan ma'lumotlarni sharhlaydi.

Sitemap.xml fayli va sayt uchun to'g'ri robots.txt - bu qidiruv robotlari tomonidan veb-resursning barcha kerakli sahifalarini tez va to'liq indekslashga hissa qo'shadigan ikkita majburiy hujjat. Yandex va Google-da saytlarni to'g'ri indekslash qidiruv tizimlarida blogni muvaffaqiyatli targ'ib qilishning kalitidir.

XML formatida sayt xaritasini qanday qilish kerakligini va nima uchun kerakligini allaqachon yozganman. Keling, WordPress sayti uchun to'g'ri robots.txt faylini qanday yaratish va umuman nima uchun kerakligi haqida gapiraylik. Batafsil ma'lumot ushbu fayl haqida ma'lumotni mos ravishda Yandex va Google'dan olish mumkin. Men asosiyga o'taman va misol sifatida mening faylimdan foydalanib WordPress uchun asosiy robots.txt sozlamalariga tegaman.

Nima uchun veb-sayt uchun robots.txt fayli kerak?

robots.txt standarti 1994 yil yanvar oyida paydo bo'lgan. Veb-resursni skanerlashda qidiruv robotlari birinchi navbatda qidiradi matn fayli robots.txt, sayt yoki blogning ildiz papkasida joylashgan. Uning yordami bilan biz turli xil qidiruv tizimlarining robotlari uchun saytni indekslaydigan ma'lum qoidalarni belgilashimiz mumkin.

Robots.txt faylini to'g'ri sozlash sizga quyidagilarga imkon beradi:

  • dublikatlarni va turli keraksiz sahifalarni indeksdan chiqarib tashlash;
  • biz yashirmoqchi bo'lgan sahifalar, fayllar va papkalarni indekslashni taqiqlash;
  • odatda ba'zi qidiruv robotlariga indekslashni rad etish (masalan, Yahoo, raqobatchilardan kiruvchi havolalar haqidagi ma'lumotlarni yashirish uchun);
  • saytning asosiy oynasini ko'rsating (www bilan yoki wwwsiz);
  • sitemap.xml sayt xaritasiga yo'lni belgilang.

Sayt uchun to'g'ri robots.txt faylini qanday yaratish mumkin

Buning uchun maxsus generatorlar va plaginlar mavjud, ammo buni qo'lda qilish yaxshiroqdir.

Siz shunchaki har qanday matn muharriri (masalan, Notepad yoki Notepad++) yordamida robots.txt deb nomlangan oddiy matn faylini yaratishingiz va uni blogingizning ildiz papkasida joylashgan hostingingizga yuklashingiz kifoya. Ushbu faylda ma'lum direktivalar yozilishi kerak, ya'ni. Yandex, Google va boshqalar robotlari uchun indekslash qoidalari.

Agar siz bu bilan bezovtalanishga dangasa bo'lsangiz, quyida men o'z nuqtai nazarimdan, blogimdan WordPress uchun to'g'ri robots.txt-ga misol keltiraman. Domen nomini uchta joyga almashtirish orqali foydalanishingiz mumkin.

Robots.txt yaratish qoidalari va direktivalari

Muvaffaqiyatli uchun qidiruv tizimini optimallashtirish blog siz robots.txt yaratish uchun ba'zi qoidalarni bilishingiz kerak:

  • Yo'qligi yoki bo'sh fayl robots.txt qidiruv tizimlariga veb-resursning barcha mazmunini indekslashga ruxsat berilganligini bildiradi.
  • robots.txt saytingiz sayt.ru/robots.txt manzilida ochilishi kerak, robotga 200 OK javob kodini beradi va hajmi 32 KB dan oshmasligi kerak. Ochilmaydigan fayl (masalan, 404 xatosi tufayli) yoki kattaroq fayl yaxshi deb hisoblanadi.
  • Fayldagi direktivalar soni 1024 dan oshmasligi kerak. Bitta qatorning uzunligi 1024 belgidan oshmasligi kerak.
  • Yaroqli robots.txt fayli bir nechta bayonotga ega bo'lishi mumkin, ularning har biri User-agent direktivasi bilan boshlanishi va kamida bitta ruxsat berish direktivasiga ega bo'lishi kerak. Odatda ular Google va boshqa barcha robotlar va Yandex uchun alohida-alohida robots.txt da ko'rsatmalar yozadilar.

Asosiy robots.txt direktivalari:

Foydalanuvchi-agent - ko'rsatma qaysi qidiruv robotiga qaratilganligini ko'rsatadi.

“*” belgisi bu barcha robotlarga tegishli ekanligini bildiradi, masalan:

Foydalanuvchi-agent: *

Agar biz Yandex uchun robots.txt da qoida yaratishimiz kerak bo'lsa, biz yozamiz:

Foydalanuvchi-agent: Yandex

Agar ma'lum bir robot uchun direktiv belgilangan bo'lsa, User-agent: * direktivasi u tomonidan hisobga olinmaydi.

Ruxsat berish va ruxsat berish - mos ravishda robotlarga ko'rsatilgan sahifalarni indekslashni taqiqlash va ruxsat berish. Barcha manzillar saytning ildizidan ko'rsatilishi kerak, ya'ni. uchinchi chiziqdan boshlab. Masalan:

  • Barcha robotlarga butun saytni indekslashni taqiqlash:

    Foydalanuvchi-agent: *
    Ruxsat bermaslik: /

  • Yandex-ga /wp-admin bilan boshlangan barcha sahifalarni indekslash taqiqlangan:

    Foydalanuvchi-agent: Yandex
    Ruxsat bermaslik: /wp-admin

  • Bo'sh Disallow direktivasi hamma narsani indekslash imkonini beradi va Ruxsat berish ga o'xshaydi. Masalan, men Yandex-ga butun saytni indekslashiga ruxsat beraman:

    Foydalanuvchi-agent: Yandex
    Ruxsat bermaslik:

  • Va aksincha, men barcha qidiruv robotlariga barcha sahifalarni indekslashni taqiqlayman:

    Foydalanuvchi-agent: *
    Ruxsat bering:

  • Xuddi shu User-agent blokidagi ruxsat berish va taqiqlash ko'rsatmalari URL prefiks uzunligi bo'yicha saralanadi va ketma-ket bajariladi. Agar saytning bir sahifasi uchun bir nechta direktivalar mos bo'lsa, ro'yxatdagi oxirgisi bajariladi. Endi robot direktivlardan foydalanganda ularni yozish tartibi muhim emas. Agar direktivada bir xil uzunlikdagi prefikslar bo'lsa, birinchi navbatda Allow bajariladi. Ushbu qoidalar 2012 yil 8 martdan kuchga kirdi. Masalan, u faqat /wp-includes bilan boshlanadigan sahifalarni indekslash imkonini beradi:

    Foydalanuvchi-agent: Yandex
    Ruxsat bermaslik: /
    Ruxsat bering: /wp-includes

Sayt xaritasi - XML ​​sayt xaritasi manzilini belgilaydi. Bitta sayt bir nechta Sayt xaritasi ko'rsatmalariga ega bo'lishi mumkin, ularni joylashtirish mumkin. Saytni indekslashni tezlashtirish uchun barcha Sayt xaritasi fayl manzillari robots.txt da ko'rsatilishi kerak:

Sayt xaritasi: http://site/sitemap.xml.gz
Sayt xaritasi: http://site/sitemap.xml

Xost - oyna robotiga qaysi veb-sayt oynasi asosiysini ko'rib chiqish kerakligini aytadi.

Agar saytga bir nechta manzilda kirish mumkin bo'lsa (masalan, www bilan va wwwsiz), bu filtr tomonidan ushlanishi mumkin bo'lgan to'liq dublikat sahifalarni yaratadi. Bundan tashqari, bu holda, indekslangan asosiy sahifa bo'lmasligi mumkin, lekin asosiy sahifa, aksincha, indeksdan chiqariladi. qidiruv tizimi. Buning oldini olish uchun robots.txt faylida faqat Yandex uchun mo'ljallangan va faqat bitta bo'lishi mumkin bo'lgan Xost direktivasidan foydalaning. U Disallow and Allow dan keyin yoziladi va quyidagicha ko'rinadi:

Xost: veb-sayt

Crawl-delay - sahifalarni yuklab olish o'rtasidagi kechikishni soniyalarda o'rnatadi. Og'ir yuk bo'lsa va server so'rovlarni qayta ishlashga ulgurmasa ishlatiladi. Yosh saytlarda Crawl-delay direktivasidan foydalanmaslik yaxshiroqdir. Bu shunday yozilgan:

Foydalanuvchi-agent: Yandex
Tekshirish kechikishi: 4

Clean-param - faqat Yandex tomonidan qo'llab-quvvatlanadi va o'zgaruvchilar bilan ikki nusxadagi sahifalarni yo'q qilish, ularni bittaga birlashtirish uchun ishlatiladi. Shunday qilib, Yandex roboti shunga o'xshash sahifalarni ko'p marta yuklab olmaydi, masalan, yo'naltiruvchi havolalar bilan bog'liq. Men bu direktivani hali ishlatmadim, lekin Yandex uchun robots.txt-dagi yordamda maqolaning boshidagi havolaga o'ting, siz ushbu direktivani batafsil o'qishingiz mumkin.

Maxsus belgilar * va $ robots.txt da "Ruxsat berish" va "Ruxsat berish" direktivalari yo'llarini ko'rsatish uchun ishlatiladi:

  • Maxsus belgi "*" har qanday belgilar ketma-ketligini bildiradi. Misol uchun, Disallow: /*?* bu belgidan oldin va keyin qaysi belgilar kelishidan qat'iy nazar, manzilda “?” ko'rsatilgan har qanday sahifalarni taqiqlashni anglatadi. Odatiy bo'lib, har bir qoidaning oxiriga maxsus belgi "*" qo'shiladi, hatto u aniq ko'rsatilmagan bo'lsa ham.
  • "$" belgisi qoida oxiridagi "*" belgisini bekor qiladi va qat'iy muvofiqlikni bildiradi. Masalan, Disallow: /*?$ direktivasi “?” belgisi bilan tugaydigan sahifalarni indekslashni taqiqlaydi.

WordPress uchun misol robots.txt

WordPress dvigatelidagi blog uchun mening robots.txt faylimga misol:

User-agent: * Ruxsat berish: /cgi-bin Ruxsat berish: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Ruxsat bermaslik: / trackback Ruxsat berish: */trackback Ruxsat berish: */*/trackback Ruxsat berish: /feed/ Ruxsat berish: */*/feed/*/ Ruxsat berish: */feed Ruxsat berish: /*?* Ruxsat berish: /?s= Foydalanuvchi-agent: Yandex Ruxsat berish: /cgi-bin Ruxsat berish: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Ruxsat berish: /trackback Ruxsat berish: */ trackback Ruxsat berish: */*/trackback Ruxsat berish: /feed/ Ruxsat berish: */*/feed/*/ Ruxsat berish: */feed Ruxsat berish: /*?* Ruxsat berish: /?.ru/sitemap.xml..xml

User-agent: * Ruxsat berish: /cgi-bin Ruxsat berish: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Ruxsat bermaslik: / trackback Ruxsat berish: */trackback Ruxsat berish: */*/trackback Ruxsat berish: /feed/ Ruxsat berish: */*/feed/*/ Ruxsat berish: */feed Ruxsat berish: /*?* Ruxsat berish: /?s= Foydalanuvchi-agent: Yandex Ruxsat berish: /cgi-bin Ruxsat berish: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Ruxsat berish: /trackback Ruxsat berish: */ trackback Ruxsat berish: */*/trackback Ruxsat berish: /feed/ Ruxsat berish: */*/feed/*/ Ruxsat berish: */feed Ruxsat berish: /*?* Ruxsat berish: /?.ru/sitemap.xml..xml

WordPress uchun to'g'ri robots.txt yaratish bilan o'zingizni aldamaslik uchun ushbu fayldan foydalanishingiz mumkin. Indekslashda hech qanday muammo yo'q. Menda nusxa ko'chirishdan himoya qilish skripti bor, shuning uchun tayyor robots.txt-ni yuklab olish va uni hostingingizga yuklash qulayroq bo'ladi. Xost va Sayt xaritasi ko'rsatmalarida mening saytim nomini sizniki bilan almashtirishni unutmang.

WordPress uchun robots.txt faylini to'g'ri sozlash uchun foydali qo'shimchalar

Agar daraxt sharhlari WordPress blogingizga o'rnatilgan bo'lsa, ular ?replytocom= shaklidagi dublikat sahifalarni yaratadilar. robots.txt da bunday sahifalar Disallow: /*?* direktivasi bilan yopiladi. Ammo bu yechim emas va taqiqlarni olib tashlash va replytocom bilan boshqa yo'l bilan kurashish yaxshiroqdir. Nima, .

Shunday qilib, joriy robots.txt 2014 yil iyul holatiga ko'ra quyidagicha ko'rinadi:

User-agent: * Ruxsat berish: /wp-includes Ruxsat berish: /wp-feed Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Foydalanuvchi agenti: Yandex Ruxsat berish: /wp -o'z ichiga oladi Ruxsat berish: /wp-feed Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Xost: site.ru Foydalanuvchi-agent: Googlebot-Image Ruxsat berish: /wp-content /uploads/ User-agent: YandexImages Ruxsat: /wp-content/uploads/ Sayt xaritasi: http://site.ru/sitemap.xml

User-agent: * Ruxsat berish: /wp-includes Ruxsat berish: /wp-feed Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Foydalanuvchi agenti: Yandex Ruxsat berish: /wp -o'z ichiga oladi Ruxsat berish: /wp-feed Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Xost: site.ru Foydalanuvchi-agent: Googlebot-Image Ruxsat berish: /wp-content /uploads/ User-agent: YandexImages Ruxsat: /wp-content/uploads/ Sayt xaritasi: http://site.ru/sitemap.xml

U qo'shimcha ravishda tasvirni indekslash robotlari uchun qoidalarni belgilaydi.

Foydalanuvchi-agent: Mediapartners-Google
Ruxsat bermaslik:

Agar siz toifa yoki teg sahifalarini targ'ib qilishni rejalashtirmoqchi bo'lsangiz, ularni robotlarga ochishingiz kerak. Misol uchun, blog veb-saytida toifalar indeksatsiyadan yopilmaydi, chunki ular faqat maqolalarning kichik e'lonlarini nashr etadilar, bu kontentni takrorlash nuqtai nazaridan juda ahamiyatsiz. Va agar siz noyob e'lonlar bilan to'ldirilgan blog tasmasida tirnoqlarni ko'rsatishdan foydalansangiz, unda hech qanday takrorlash bo'lmaydi.

Yuqoridagi plagindan foydalanmasangiz, robots.txt faylida teglar, toifalar va arxivlarni indekslashni taqiqlashni belgilashingiz mumkin. Masalan, quyidagi qatorlarni qo'shish:

Ruxsat bermaslik: /muallif/
Ruxsat bermaslik: / teg
Ruxsat bermaslik: /category/*/*
Ruxsat bermaslik: /20*

Yandex.Webmaster panelida robots.txt faylini tekshirishni unutmang va keyin uni xostingingizga qayta yuklang.

Agar sizda robots.txt ni sozlash uchun qo'shimchalaringiz bo'lsa, bu haqda sharhlarda yozing. Endi bu nima va sayt uchun to'g'ri robots.txt faylini qanday yaratish, robots.txt faylida indekslashni qanday taqiqlash va xatolarni tuzatish haqida videoni tomosha qiling.

robots.txt fayli saytingizning asosiy katalogida joylashgan. Masalan, www.example.com saytida robots.txt fayl manzili www.example.com/robots.txt kabi ko'rinadi. robots.txt fayli oddiy matnli fayl bo'lib, robotni istisno qilish standartiga amal qiladi va bir yoki bir nechta qoidalarni o'z ichiga oladi, ularning har biri ma'lum bir brauzerga saytdagi muayyan yo'lga kirishni rad etadi yoki ruxsat beradi.

Mana bir misol oddiy fayl robots.txt ikki qoida bilan. Quyida tushuntirishlar keltirilgan.

# 1-guruh foydalanuvchi-agenti: Googlebot Ruxsat bermaslik: /nogooglebot/ # 2-guruh foydalanuvchi-agenti: * Ruxsat berish: / Sayt xaritasi: http://www.example.com/sitemap.xml

Tushuntirishlar

  1. Googlebot deb nomlangan foydalanuvchi agenti http://example.com/nogooglebot/ katalogini va uning pastki kataloglarini tekshirmasligi kerak.
  2. Boshqa barcha foydalanuvchi agentlari butun saytga kirish huquqiga ega (o'tkazib yuborilishi mumkin, natija bir xil bo'ladi, chunki to'liq kirish sukut bo'yicha beriladi).
  3. Sayt xaritasi fayli bu sayt http://www.example.com/sitemap.xml manzilida joylashgan.

Quyida robots.txt fayllari bilan ishlash bo'yicha ba'zi maslahatlar mavjud. Ushbu fayllarning to'liq sintaksisini o'rganishingizni tavsiya qilamiz, chunki ularni yaratishda ishlatiladigan sintaksis qoidalari aniq emas va siz ularni tushunishingiz kerak.

Format va tartib

UTF-8 kodlashni qo'llab-quvvatlaydigan deyarli har qanday matn muharririda robots.txt faylini yaratishingiz mumkin. foydalanmang matn protsessorlari, chunki ular ko'pincha fayllarni xususiy formatda saqlaydi va qidiruv robotlari tomonidan tan olinmaydigan jingalak tirnoq kabi noto'g'ri belgilarni qo'shadi.

robots.txt fayllarini yaratish va sinovdan o'tkazishda sinov vositasidan foydalaning. Bu sizga fayl sintaksisini tahlil qilish va uning saytingizda qanday ishlashini aniqlash imkonini beradi.

Fayl formati va joylashuviga oid qoidalar

  • Fayl robots.txt deb nomlanishi kerak.
  • Saytda faqat bitta fayl bo'lishi kerak.
  • robots.txt fayli joylashtirilishi kerak ildiz katalogi sayt. Masalan, http://www.example.com/ saytidagi barcha sahifalarni skanerlashni boshqarish uchun robots.txt fayli http://www.example.com/robots.txt manzilida joylashgan bo'lishi kerak. U pastki katalogda bo'lmasligi kerak(masalan, manzilda http://example.com/pages/robots.txt). Agar siz ildiz katalogiga kirishda qiynalsangiz, hosting provayderingizga murojaat qiling. Agar saytning asosiy katalogiga kirish imkoningiz bo'lmasa, foydalaning muqobil usul qulflar, masalan, meta teglar.
  • robots.txt fayli manzillarga qo'shilishi mumkin subdomenlar(masalan, http:// veb-sayt.example.com/robots.txt) yoki nostandart portlar (masalan, http://example.com: 8181 /robots.txt).
  • # belgisidan keyingi har qanday matn izoh hisoblanadi.

Sintaksis

  • robots.txt fayli UTF-8 da kodlangan matn fayli bo'lishi kerak (bu ASCII belgilar kodlarini o'z ichiga oladi). Boshqa belgilar toʻplamidan foydalanib boʻlmaydi.
  • robots.txt fayli quyidagilardan iborat guruhlar.
  • Har biri guruh bir nechtasini o'z ichiga olishi mumkin qoidalar, har bir satrda bittadan. Ushbu qoidalar ham deyiladi direktivalar.
  • Guruh quyidagi ma'lumotlarni o'z ichiga oladi:
    • qaysiga foydalanuvchi agenti Guruh ko'rsatmalari qo'llaniladi.
    • kirish huquqiga ega.
    • Bu agent qaysi katalog yoki fayllarga kira oladi? kirish yo'q.
  • Guruh ko'rsatmalari yuqoridan pastgacha o'qiladi. Robot unga eng mos keladigan foydalanuvchi agenti bilan faqat bitta guruh qoidalariga amal qiladi.
  • Odatiy bo'lib, u taxmin qilinadi Agar sahifaga yoki katalogga kirish Disallow: qoidasi bilan bloklanmagan bo'lsa, foydalanuvchi agenti uni qayta ishlashi mumkin.
  • Qoidalar harflar katta-kichikligiga sezgir. Shunday qilib, ruxsat bermaslik: /file.asp qoidasi http://www.example.com/file.asp URL manzili uchun amal qiladi, lekin http://www.example.com/File.asp uchun emas.

robots.txt fayllarida ishlatiladigan direktivalar

  • Foydalanuvchi-agent: Majburiy ko'rsatma, bir guruhda ulardan bir nechtasi bo'lishi mumkin. Qaysi qidiruv tizimini aniqlaydi robot qoidalar amal qilishi kerak. Har bir guruh shu qatordan boshlanadi. Google Robots bilan bog'liq ko'pchilik foydalanuvchi agentlarini maxsus ro'yxatda va Internet Robotlar ma'lumotlar bazasida topish mumkin. Prefiks, yoʻl qoʻshimchasi yoki butun yoʻlni koʻrsatish uchun * joker belgisi qoʻllab-quvvatlanadi. Barcha brauzerlarga kirishni bloklash uchun quyidagi misolda ko'rsatilganidek * belgisidan foydalaning ( AdsBot robotlaridan tashqari, bu alohida ko'rsatilishi kerak). Google robotlari ro'yxati bilan tanishib chiqishingizni tavsiya qilamiz. Misollar:# Misol 1. Faqat Googlebot foydalanuvchi agentiga kirishni bloklash: Googlebot Disallow: / # Misol 2. Googlebot va AdsBot robotlariga kirishni bloklash Foydalanuvchi-agent: Googlebot User-agent: AdsBot-Google Disallow: / # 3-misol. AdsBot User-agentdan tashqari barcha robotlar: * Ruxsat bermaslik: /
  • Ruxsat bermaslik: . Yuqorida belgilangan foydalanuvchi agenti tomonidan tekshirib bo'lmaydigan ildiz domeniga oid katalog yoki sahifaga ishora qiladi. Agar bu sahifa bo'lsa, brauzerning manzil satrida bo'lgani kabi, unga to'liq yo'l ko'rsatilishi kerak. Agar bu katalog bo'lsa, yo'l slash (/) bilan tugashi kerak. Prefiks, yoʻl qoʻshimchasi yoki butun yoʻlni koʻrsatish uchun * joker belgisi qoʻllab-quvvatlanadi.
  • Ruxsat bering: Har bir guruhda kamida bitta Disallow: yoki Allow: direktivasi bo'lishi kerak. Yuqorida belgilangan foydalanuvchi agenti tomonidan tekshirilishi mumkin bo'lgan ildiz domeniga oid katalog yoki sahifaga ishora qiladi. Disallow direktivasini bekor qilish va skanerlash uchun yopilgan katalogdagi kichik katalog yoki sahifani skanerlashga ruxsat berish uchun foydalaniladi. Agar bu sahifa bo'lsa, brauzerning manzil satrida bo'lgani kabi, unga to'liq yo'l ko'rsatilishi kerak. Agar bu katalog bo'lsa, yo'l slash (/) bilan tugashi kerak. Prefiks, yoʻl qoʻshimchasi yoki butun yoʻlni koʻrsatish uchun * joker belgisi qoʻllab-quvvatlanadi.
  • Sayt xaritasi: Ixtiyoriy direktiv faylda ulardan bir nechtasi bo'lishi yoki hech biri bo'lmasligi mumkin. Ushbu saytda foydalaniladigan Sayt xaritasining joylashuvini ko'rsatadi. URL to'liq bo'lishi kerak. Google http va https prefikslari yoki www elementi bilan yoki bo'lmasdan URL o'zgarishlarini qayta ishlamaydi yoki tasdiqlamaydi. Sayt xaritalari Googlega qanday tarkibni ayting kerak skanerlash va uni tarkibdan qanday ajratish mumkin mumkin yoki bu taqiqlangan skanerlash. Misol: Sayt xaritasi: https://example.com/sitemap.xml Sayt xaritasi: http://www.example.com/sitemap.xml

Boshqa qoidalar e'tiborga olinmaydi.

Yana bir misol

robots.txt fayli guruhlardan iborat. Ularning har biri qoidalarga rioya qilishi kerak bo'lgan robotni belgilaydigan User-agent qatoridan boshlanadi. Quyida ikkita guruh va ikkalasi uchun izohli izohlar mavjud fayl misoli keltirilgan.

# Googlebotning example.com/directory1/... va example.com/directory2/... ga kirishini bloklash # lekin directory2/subdirectory1/... ga kirishga ruxsat bering # Boshqa barcha kataloglarga sukut bo'yicha ruxsat beriladi. User-agent: googlebot Ruxsat berish: /directory1/ Ruxsat berish: /directory2/ Ruxsat berish: /directory2/subdirectory1/ # Boshqa qidiruv tizimiga butun saytga kirishni bloklash. Foydalanuvchi-agent: anothercrawler Ruxsat bermaslik: /

robots.txt faylining to'liq sintaksisi

To'liq sintaksis ushbu maqolada tasvirlangan. U bilan tanishib chiqishingizni tavsiya qilamiz, chunki robots.txt fayli sintaksisida muhim nuanslar mavjud.

Foydali qoidalar

Robots.txt fayli uchun ba'zi umumiy qoidalar:

Qoida Misol
Butun saytni skanerlashni taqiqlash. Shuni esda tutingki, ba'zi hollarda sayt URL manzillari skanerdan o'tkazilmagan bo'lsa ham indeksda bo'lishi mumkin. E'tibor bering, ushbu qoida alohida ko'rsatilishi kerak bo'lgan AdsBot robotlariga taalluqli emas. Foydalanuvchi-agent: * Ruxsat bermaslik: /
Katalog va uning barcha mazmunini skanerlashni oldini olish uchun, katalog nomidan keyin qiyshiq chiziq qo'ying. Himoya uchun robots.txt dan foydalanmang maxfiy ma'lumotlar! Ushbu maqsadlar uchun autentifikatsiyadan foydalanish kerak. Robots.txt fayli tomonidan skanerlanishining oldini olgan URL-manzillar indekslanishi va robots.txt faylining mazmunini istalgan foydalanuvchi ko'rishi va shu tariqa nozik ma'lumotlarga ega fayllarning joylashuvini aniqlashi mumkin. Foydalanuvchi-agent: * Ruxsat bermaslik: /kalendar/ Ruxsat bermaslik: /junk/
Faqat bitta brauzer tomonidan skanerlashga ruxsat berish Foydalanuvchi-agent: Googlebot-news Ruxsat berish: / Foydalanuvchi-agent: * Ruxsat bermaslik: /
Bittasidan tashqari barcha brauzerlar uchun skanerlashga ruxsat berish Foydalanuvchi-agent: Unnecessarybot Ruxsat berish: / Foydalanuvchi-agent: * Ruxsat berish: /

Muayyan sahifani tekshirilishining oldini olish uchun, qiyshiq chiziqdan keyin ushbu sahifani belgilang.

Foydalanuvchi-agent: * Ruxsat bermaslik: /private_file.html

Google Images robotidan ma'lum bir tasvirni yashirish uchun

Foydalanuvchi-agent: Googlebot-Image ruxsat bermaslik: /images/dogs.jpg

Saytingizdagi barcha rasmlarni Google Images robotidan yashirish uchun

Foydalanuvchi-agent: Googlebot-Image Disallow: /

Muayyan turdagi barcha fayllarni skanerlashning oldini olish uchun(V Ushbu holatda GIF)

Foydalanuvchi-agent: Googlebot Ruxsat bermaslik: /*.gif$

Saytingizdagi ayrim sahifalarni bloklash, lekin ularda AdSense reklamalarini ko‘rsatish, Mediapartners-Google-dan tashqari barcha robotlar uchun Ruxsat berish qoidasidan foydalaning. Natijada, ushbu robot ma'lum bir foydalanuvchiga ko'rsatish uchun reklamalarni tanlash uchun qidiruv natijalaridan olib tashlangan sahifalarga kira oladi.

Foydalanuvchi-agent: * Ruxsat bermaslik: / Foydalanuvchi-agent: Mediapartners-Google Ruxsat berish: /
bilan tugaydigan URL manzilini belgilash uchun ma'lum bir parcha , $ belgisidan foydalaning. Masalan, .xls bilan tugaydigan URL manzillar uchun quyidagi koddan foydalaning: Foydalanuvchi-agent: Googlebot Ruxsat bermaslik: /*.xls$

Ushbu ma'lumot foydali bo'ldimi?

Ushbu maqolani qanday yaxshilash mumkin?

© 2024 ermake.ru -- Kompyuterni ta'mirlash haqida - Axborot portali