ரோபோ txt ஐ எவ்வாறு கட்டமைப்பது. ரோபோக்கள் txt கோப்பை அமைப்பதற்கான பரிந்துரைகள்

வீடு / இயக்க முறைமைகள்

Robots.txt என்பது தேடுபொறி ரோபோக்களுக்கான தள அட்டவணைப்படுத்தல் அளவுருக்களைக் கொண்ட உரைக் கோப்பாகும்.

robots.txt ஐ எவ்வாறு அமைப்பது

    உரை திருத்தியில் robots.txt என்ற கோப்பை உருவாக்கி, கீழே உள்ள வழிகாட்டுதல்களைப் பயன்படுத்தி அதை நிரப்பவும்.

    Yandex.Webmaster சேவையில் கோப்பைச் சரிபார்க்கவும் (மெனுவில் Robots.txt பகுப்பாய்வு).

    உங்கள் தளத்தின் ரூட் கோப்பகத்தில் கோப்பைப் பதிவேற்றவும்.

பயனர் முகவர் உத்தரவு

YandexMedia - மல்டிமீடியா தரவு அட்டவணைப்படுத்துகிறது.

குறிப்பிட்ட ரோபோவுக்கான வழிமுறைகள் இருந்தால், பயனர் முகவர்: Yahoo மற்றும் பயனர் முகவர்: * ஆகியவை பயன்படுத்தப்படாது.

பயனர்-ஏஜெண்ட்: YandexBot # முக்கிய அட்டவணைப்படுத்தல் ரோபோவால் மட்டுமே பயன்படுத்தப்படும் அனுமதிக்காதே: /*id= பயனர் முகவர்: Yandex # அனைத்து Yandex ரோபோக்களும் பயன்படுத்தப்படும் : * # Yandex ரோபோக்களால் பயன்படுத்தப்படாது அனுமதிக்க வேண்டாம்: /cgi-bin

உத்தரவுகளை அனுமதிக்காதே மற்றும் அனுமதி

உங்கள் தளத்தையோ அல்லது அதன் சில பிரிவுகளையோ அணுகுவதை ரோபோவைத் தடுக்க, அனுமதி வேண்டாம் என்ற கட்டளையைப் பயன்படுத்தவும்.

பயனர் முகவர்: YandexDisallow: / # முழு தளத்திற்கான அணுகலைத் தடுக்கிறது பயனர் முகவர்: YandexDisallow: /cgi-bin # "/cgi-bin" உடன் தொடங்கும் பக்கங்களுக்கான அணுகலைத் தடுக்கிறது

தரநிலையின்படி, ஒவ்வொரு பயனர் முகவர் உத்தரவுக்கும் முன் நீங்கள் ஒரு வெற்று வரியைச் செருக வேண்டும்.

# எழுத்து வர்ணனையை வடிவமைக்கிறது. இந்தக் கதாபாத்திரத்தைத் தொடர்ந்து முதல் வரி இடைவேளை வரை அனைத்தும் புறக்கணிக்கப்படுகின்றன.

தளத்தின் குறிப்பிட்ட பகுதிகள் அல்லது முழு தளத்தையும் அணுக ரோபோவை அனுமதிக்க அனுமதி கட்டளையைப் பயன்படுத்தவும்.

பயனர் முகவர்: யாண்டெக்ஸ் அனுமதி: /cgi-bin Disallow: / # "/cgi-bin" உடன் தொடங்கும் # பக்கங்களைத் தவிர எதையும் பதிவிறக்குவதைத் தடுக்கிறது

குறிப்பு.

பயனர் முகவர், அனுமதிக்காத மற்றும் அனுமதி உத்தரவுகளுக்கு இடையே வெற்று வரி முறிவுகள் அனுமதிக்கப்படாது.

கட்டளைகளை இணைத்தல்

# Source robots.txt: பயனர் முகவர்: யாண்டெக்ஸ் அனுமதி robots.txt: பயனர் முகவர்: யாண்டெக்ஸ் அனுமதி "/catalog", # உடன் தொடங்கும் ஆனால் "/catalog/auto" என்று தொடங்கும் பக்கங்களைப் பதிவிறக்க அனுமதிக்கிறது.

அளவுருக்கள் இல்லாமல் உத்தரவுகளை அனுமதி மற்றும் அனுமதிக்காதே

கட்டளைகளில் அளவுருக்கள் இல்லை என்றால், ரோபோ தரவை பின்வருமாறு கையாளுகிறது:

பயனர் முகவர்: யாண்டெக்ஸ் அனுமதிக்காதது: # அனுமதிப்பது போலவே: / பயனர் முகவர்: யாண்டெக்ஸ் அனுமதி: # ரோபோவால் கணக்கில் எடுத்துக்கொள்ளப்படவில்லை

சிறப்பு எழுத்துக்களைப் பயன்படுத்துதல் * மற்றும் $

அனுமதி மற்றும் அனுமதிக்காத கட்டளைகளுக்கான பாதைகளைக் குறிப்பிடும்போது வழக்கமான வெளிப்பாடுகளை அமைக்க * மற்றும் $ என்ற சிறப்பு எழுத்துகளைப் பயன்படுத்தலாம். * எழுத்து எந்த எழுத்து வரிசையையும் குறிக்கிறது (அல்லது எதுவுமில்லை). எடுத்துக்காட்டுகள்:

பயனர் முகவர்: Yandex அனுமதிக்காது: /cgi-bin/*.aspx # தடைகள் "/cgi-bin/example.aspx" # மற்றும் "/cgi-bin/private/test.aspx" அனுமதிக்காது: /*தனியார் # இரண்டையும் தடை செய்கிறது " /தனியார்", # மற்றும் "/cgi-bin/private"

$ பாத்திரம்

இயல்பாக, robots.txt கோப்பில் விவரிக்கப்பட்டுள்ள ஒவ்வொரு விதியின் முடிவிலும் * எழுத்து சேர்க்கப்படும். எடுத்துக்காட்டு:

பயனர் முகவர்: யாண்டெக்ஸ் அனுமதிக்காதது: /cgi-bin* # பக்கங்களுக்கான அணுகலைத் தடுக்கிறது # "/cgi-bin"Disallow: /cgi-bin # அதே

விதியின் முடிவில் * ஐ ரத்து செய்ய, $ எழுத்தைப் பயன்படுத்தவும், எடுத்துக்காட்டாக:

பயனர்-ஏஜெண்ட்: Yandex அனுமதிக்காது: /example$ # "/example" ஐத் தடைசெய்கிறது, # ஆனால் "/example.html" பயனர் முகவர்: Yandex Disallow: /example # "/example", # மற்றும் "/example.html இரண்டையும் தடை செய்கிறது. " $ எழுத்து" இறுதியில் * தடை செய்யாது, அதாவது: பயனர்-ஏஜெண்ட்: யாண்டெக்ஸ் அனுமதிக்காது # /example.html மற்றும் /example இரண்டையும் தடை செய்கிறது

தளவரைபட உத்தரவு

உங்கள் தளத்தின் கட்டமைப்பை விவரிக்க, தளவரைபடக் கோப்பைப் பயன்படுத்தினால், தளவரைபட கட்டளையின் அளவுருவாக கோப்பிற்கான பாதையைக் குறிப்பிடவும் (உங்களிடம் பல கோப்புகள் இருந்தால், எல்லா பாதைகளையும் குறிப்பிடவும்:

பயனர் முகவர்: யாண்டெக்ஸ் அனுமதி: / தளவரைபடம்: https://example.com/site_structure/my_sitemaps1.xml தளவரைபடம்: https://example.com/site_structure/my_sitemaps2.xml

இந்த உத்தரவு குறுக்குவெட்டு ஆகும், அதாவது இது robots.txt இல் உள்ள இடத்தைப் பொருட்படுத்தாமல் ரோபோவால் பயன்படுத்தப்படுகிறது.

ரோபோ உங்கள் கோப்பிற்கான பாதையை நினைவில் வைத்து, உங்கள் தரவை செயலாக்குகிறது மற்றும் உங்கள் தளத்திற்கு அடுத்த வருகையின் போது முடிவுகளைப் பயன்படுத்தும்.

கிரால்-தாமத உத்தரவு

சேவையகம் ஓவர்லோட் செய்யப்பட்டு, பதிவிறக்கம் செய்வதற்கான கோரிக்கைகளைச் செயல்படுத்த முடியாவிட்டால், ஒரு பக்கத்தைப் பதிவிறக்கிய பிறகு, மற்றொரு பக்கத்தைப் பதிவிறக்கத் தொடங்கும் முன், தேடல் ரோபோ காத்திருக்கும் குறைந்தபட்ச இடைவெளியை (வினாடிகளில்) நீங்கள் குறிப்பிடலாம்.

robots.txt ஐச் செயலாக்கும்போது தரநிலையிலிருந்து விலகக்கூடிய ரோபோக்களுடன் இணக்கத்தன்மையைப் பராமரிக்க, அனுமதி மறுப்பு மற்றும் அனுமதி உத்தரவுகளுக்குப் பிறகு, பயனர் முகவர் நுழைவுடன் தொடங்கும் குழுவில் க்ரால்-தாமத உத்தரவைச் சேர்க்கவும்.

யாண்டெக்ஸ் தேடல் ரோபோ "0.5" போன்ற கிரால்-டிலேக்கான பகுதி மதிப்புகளை ஆதரிக்கிறது. தேடல் ரோபோ ஒவ்வொரு அரை வினாடிக்கும் உங்கள் தளத்தை அணுகும் என்று இது அர்த்தப்படுத்துவதில்லை, ஆனால் இது தள செயலாக்கத்தை விரைவுபடுத்தலாம்.

பயனர்-ஏஜெண்ட்: Yandex க்ரால்-தாமதம்: 2 # 2-வினாடி காலக்கெடுவை அமைக்கிறது.

சுத்தமான-பரம் உத்தரவு

உங்கள் தளப் பக்க முகவரிகளில் உள்ளடக்கத்தைப் பாதிக்காத டைனமிக் அளவுருக்கள் இருந்தால் (உதாரணமாக, அமர்வுகள், பயனர்கள், பரிந்துரையாளர்கள் மற்றும் பலவற்றின் அடையாளங்காட்டிகள்), அவற்றை Clean-param கட்டளையைப் பயன்படுத்தி விவரிக்கலாம்.

நகல் தகவலை மீண்டும் ஏற்றுவதைத் தவிர்க்க Yandex ரோபோ இந்தத் தகவலைப் பயன்படுத்துகிறது. இது ரோபோவின் திறமையை மேம்படுத்துகிறது மற்றும் சர்வர் சுமையை குறைக்கிறது.

எடுத்துக்காட்டாக, உங்கள் தளத்தில் பின்வரும் பக்கங்கள் உள்ளன:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book 123

கோரிக்கை எந்த ஆதாரத்திலிருந்து அனுப்பப்பட்டது என்பதைக் கண்காணிக்க மட்டுமே ref அளவுரு பயன்படுத்தப்படுகிறது. இது பக்கத்தின் உள்ளடக்கத்தை மாற்றாது, பின்வருவனவற்றை நீங்கள் குறிப்பிடினால், மூன்று URLகளும் book_id=123 புத்தகத்துடன் ஒரே பக்கத்தைக் காண்பிக்கும்.

பயனர் முகவர்: யாண்டெக்ஸ் அனுமதிக்காதது: சுத்தமான-பரம்: ref /some_dir/get_book.pl

யாண்டெக்ஸ் ரோபோ அனைத்து பக்க முகவரிகளையும் ஒன்றாக இணைக்கும்:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

அளவுருக்கள் இல்லாத பக்கம் தளத்தில் இருந்தால்:

www.example.com/some_dir/get_book.pl?book_id=123

மற்ற எல்லா URLகளும் ரோபோ குறியீட்டு முறைக்கு பிறகு மாற்றப்படும். உங்கள் தளத்தின் பிற பக்கங்கள் அடிக்கடி வலைவலம் செய்யப்படும், ஏனெனில் பக்கங்களைப் புதுப்பிக்க வேண்டிய அவசியமில்லை:

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

டைரக்டிவ் தொடரியல்

சுத்தமான-பரம்: p0[&p1&p2&..&pn]

முதல் புலத்தில், புறக்கணிக்க வேண்டிய அளவுருக்களை & எழுத்து மூலம் பிரிக்க வேண்டும். இரண்டாவது புலத்தில், விதி பொருந்த வேண்டிய பக்கங்களுக்கான பாதை முன்னொட்டைக் குறிக்கவும்.

முன்னொட்டு robots.txt கோப்பில் பயன்படுத்தப்படும் வடிவத்தில் வழக்கமான வெளிப்பாட்டைக் கொண்டிருக்கலாம், ஆனால் சில கட்டுப்பாடுகளுடன்: நீங்கள் A-Za-z0-9.-/*_ எழுத்துக்களை மட்டுமே பயன்படுத்த முடியும். இருப்பினும், * என்பது robots.txt இல் உள்ளதைப் போலவே விளக்கப்படுகிறது. முன்னொட்டின் முடிவில் A * எப்போதும் மறைமுகமாக இணைக்கப்படும். உதாரணமாக:

Clean-param: s /forum/showthread.php

/forum/showthread.php உடன் தொடங்கும் அனைத்து URLகளுக்கும் s அளவுரு புறக்கணிக்கப்படுகிறது. இரண்டாவது புலம் விருப்பமானது, இந்த வழக்கில் தளத்தில் உள்ள அனைத்து பக்கங்களுக்கும் விதி பொருந்தும். இது கேஸ் சென்சிடிவ். விதியின் அதிகபட்ச நீளம் 500 எழுத்துகள். உதாரணமாக:

Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash

கூடுதல் உதாரணங்கள்

#www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=824x முகவர்: யாண்டெக்ஸ் அனுமதிக்காதது: Clean-param: s /forum/showthread.php #போன்ற முகவரிகளுக்கு:www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/indexample2.com/indpage? 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt பின்வருவனவற்றைக் கொண்டிருக்கும்: பயனர்-ஏஜெண்ட்: Yandex அனுமதிக்காது: Clean-param: sid /index.php #இந்த அளவுருக்கள் பல இருந்தால்:www.com/forumple1.com/example1. ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt பின்வருவனவற்றைக் கொண்டிருக்கும்: பயனர்-குறைபாடு: */showthread.php #பல்வேறு ஸ்கிரிப்ட்களில் அளவுரு பயன்படுத்தப்பட்டால்:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=127310480117348 robots.txt பின்வருவனவற்றைக் கொண்டிருக்கும்: பயனர்-ஏஜெண்ட்: Yandex அனுமதிக்காது: Clean-param: s /forum/index.php Clean-param: s /forum/showthread.php

சிரிலிக் எழுத்துக்களைப் பயன்படுத்துதல்

robots.txt கோப்பு மற்றும் HTTP சர்வர் தலைப்புகளில் சிரிலிக் எழுத்துக்களின் பயன்பாடு அனுமதிக்கப்படாது.

டொமைன் பெயர்களுக்கு, Punycode ஐப் பயன்படுத்தவும். பக்க முகவரிகளுக்கு, தற்போதைய தள அமைப்பில் பயன்படுத்தப்படும் அதே குறியாக்கத்தைப் பயன்படுத்தவும்.

robots.txt கோப்பின் எடுத்துக்காட்டு:

#தவறான: பயனர் முகவர்: யாண்டெக்ஸ் அனுமதிக்காதது: / கார்ட் தள வரைபடம்: site.рф/sitemap.xml #சரியானது: பயனர் முகவர்: யாண்டெக்ஸ் அனுமதிக்காதது: /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 தள வரைபடம்: http://xn--80aswg.xn--p1ai/sitemap.xml

கூடுதல் தகவல்

இந்தப் பக்கத்தில் பட்டியலிடப்பட்டுள்ள robots.txt உத்தரவுகளை மட்டுமே Yandex ரோபோ ஆதரிக்கிறது. மேலே விவரிக்கப்பட்ட கோப்பு செயலாக்க விதிகள் அடிப்படை தரநிலையின் நீட்டிப்பைக் குறிக்கின்றன. மற்ற ரோபோக்கள் robots.txt உள்ளடக்கங்களை வேறு வழியில் விளக்கலாம்.

நீட்டிக்கப்பட்ட robots.txt வடிவமைப்பைப் பயன்படுத்தும் போது கிடைக்கும் முடிவுகள், அடிப்படைத் தரத்தைப் பயன்படுத்தும் முடிவுகளிலிருந்து வேறுபடலாம், குறிப்பாக:

பயனர் முகவர்: Yandex அனுமதி: / அனுமதி: /# நீட்டிப்புகள் இல்லாமல் அனைத்தும் தடைசெய்யப்பட்டது, ஏனெனில் "அனுமதி: /" புறக்கணிக்கப்பட்டது, # ஆதரவு நீட்டிப்புகளுடன், அனைத்தும் அனுமதிக்கப்படும் பயனர் முகவர்: Yandex Disallow: /private*html # நீட்டிப்புகள் இல்லாமல், " /private*html" தடைசெய்யப்பட்டது, # ஆதரவு நீட்டிப்புகளுடன், "/private*html", # "/private/test.html", "/private/html/test.aspx", மேலும் பயனர்- agent: Yandex அனுமதிக்காதது: /private$ # ஆதரவு நீட்டிப்புகள் இல்லாமல், "/private$" மற்றும் "/private$test", மற்றும் பல தடைசெய்யப்பட்டன, # நீட்டிப்புகள் ஆதரிக்கப்படுகின்றன, "/private" மட்டுமே தடைசெய்யப்பட்டுள்ளது பயனர் முகவர்: * அனுமதி : / பயனர்-ஏஜெண்ட்: Yandex அனுமதி: / # நீட்டிப்புகள் இல்லாமல், விடுபட்ட வரி முறிவு காரணமாக, # "பயனர்-முகவர்: Yandex" புறக்கணிக்கப்படும் # விளைவாக "Disallow: /", ஆனால் Yandex ரோபோ # பாகுபடுத்துகிறது "பயனர்-முகவர்:" துணைச்சரத்தின் அடிப்படையில் சரங்கள். # இந்த வழக்கில், Yandex ரோபோவின் முடிவு "அனுமதி: /" பயனர்-ஏஜெண்ட்: * அனுமதிக்காதது: / # கருத்து1... # கருத்து2... # கருத்து3... பயனர்-ஏஜெண்ட்: Yandex அனுமதி: / # அதே முந்தைய உதாரணத்தைப் போலவே (மேலே காண்க)

நீட்டிக்கப்பட்ட robots.txt வடிவமைப்பைப் பயன்படுத்தும் எடுத்துக்காட்டுகள்:

பயனர் முகவர்: யாண்டெக்ஸ் அனுமதி: /காப்பகத்தை அனுமதிக்காது: / # "/காப்பகம்" உள்ள அனைத்தையும் அனுமதிக்கிறது; மீதமுள்ளவை தடைசெய்யப்பட்டவை பயனர் முகவர்: யாண்டெக்ஸ் அனுமதி: /பழங்காலப்பட்ட/தனியார்/*.html$ # HTML கோப்புகளை "/பழங்காலப்பட்ட/தனியார்/... பாதையில்" # அனுமதிக்கிறது அனுமதிக்காதே: /*.php$ # அனைத்து "* .php" on siteDisallow: /*/private/ # # "/private/" கொண்டிருக்கும் அனைத்து துணைப் பாதைகளையும் தடை செய்கிறது, ஆனால் மேலே உள்ள அனுமதியானது தடையின் # பகுதியை மறுக்கிறது: /*/old/*.zip$ # அனைத்தையும் தடை செய்கிறது "*. zip" கோப்புகள் # "/old/" உள்ள பாதையில் பயனர் முகவர்: Yandex அனுமதிக்காது: /add.php?*user= # அனைத்து "add.php?" "பயனர்" விருப்பத்துடன் கூடிய ஸ்கிரிப்டுகள்

robots.txt கோப்பை உருவாக்கும் போது, ​​ரோபோ அதன் அளவுக்கு நியாயமான வரம்பை வைக்கிறது என்பதை நீங்கள் நினைவில் கொள்ள வேண்டும். கோப்பு அளவு 32 KB ஐ விட அதிகமாக இருந்தால், ரோபோ எல்லாவற்றையும் அனுமதிக்கிறது என்று கருதுகிறது, அதாவது அது அதே வழியில் விளக்கப்படுகிறது.

robots.txt கோப்பை சரியாக அமைப்பது நீக்கப்படும் சாத்தியமான பிரச்சினைகள், அட்டவணைப்படுத்தலின் போது எழுகிறது.

குறிப்பாக, தள உரிமையாளருக்கு சேவையின் அட்டவணைப்படுத்தல் மற்றும் வளத்தின் தனிப்பட்ட பிரிவுகளை கட்டுப்படுத்த வாய்ப்பு உள்ளது. ஒரு கோப்பை எவ்வாறு உருவாக்குவது மற்றும் வெவ்வேறு தேடுபொறிகளுக்கு அதை கட்டமைப்பது மற்றும் பிரபலமான CMS - இந்த வெளியீட்டில் பேசுவோம்.

robots.txt கோப்பு எதற்காக?

நீங்கள் யூகித்தபடி, இந்த கோப்பில் தேடல் போட்களுக்கான வழிமுறைகள் உள்ளன. இது ரூட் கோப்பகத்தில் வைக்கப்பட வேண்டும், எனவே ரோபோட்கள்.txt இல் உள்ள நிபந்தனைகளைப் படித்து பக்கத்தை அட்டவணைப்படுத்தத் தொடங்கும்.

எனவே, எந்த தளத்தின் கோப்பகங்கள் அட்டவணைப்படுத்த அனுமதிக்கப்படுகின்றன மற்றும் இந்த செயல்முறைக்கு உட்பட்டவை அல்ல என்பதை ரோபோக்களைத் தேட கோப்பு குறிக்கிறது.

கோப்பின் இருப்பு தரவரிசை செயல்முறையைப் பாதிக்காது என்பதைக் கருத்தில் கொண்டு, பல தளங்களில் robots.txt இல்லை. ஆனால் அது உண்மையில் இல்லை சரியான வழி. வளத்திற்கு robots.txt தரும் நன்மைகளைப் பார்ப்போம்.

ஒரு வளத்தை முழுவதுமாகவோ அல்லது பகுதியாகவோ அட்டவணைப்படுத்துவதை நீங்கள் தடைசெய்யலாம், மேலும் அட்டவணைப்படுத்தல் செய்யும் உரிமையைக் கொண்டிருக்கும் தேடல் ரோபோக்களின் வரம்பைக் கட்டுப்படுத்தலாம். இந்த செயல்முறையிலிருந்து நீங்கள் வளத்தை முழுமையாகப் பாதுகாக்கலாம் (உதாரணமாக, ஒரு வலைத்தளத்தை உருவாக்கும் அல்லது மறுகட்டமைக்கும் போது).

கூடுதலாக, ரோபோக்கள் கோப்பு அனைத்து வகையான ஸ்பேம் ரோபோக்களால் வளத்திற்கான அணுகலை கட்டுப்படுத்துகிறது, இதன் நோக்கம் தளத்தை ஸ்கேன் செய்வதாகும். மின்னஞ்சல் முகவரிகள், இது ஸ்பேமை அனுப்பப் பயன்படும். இது எதற்கு வழிவகுக்கும் என்பதைப் பற்றி நாம் சிந்திக்க வேண்டாம் - அது புரிந்துகொள்ளத்தக்கது.

தேடுபொறிகளுக்கான நோக்கம் இல்லாத தளத்தின் அட்டவணைப்படுத்தல் பிரிவுகளிலிருந்து நீங்கள் மறைக்கலாம், ஆனால் ஒரு குறிப்பிட்ட வட்ட பயனர்களுக்கு, தனிப்பட்ட மற்றும் பிற ஒத்த தகவல்களைக் கொண்ட பிரிவுகள்.

சரியான robots.txt ஐ எவ்வாறு உருவாக்குவது

பல்வேறு கட்டமைப்பாளர்களின் உதவியை நாடாமல், சரியான ரோபோக்களை கைமுறையாக எளிதாக எழுதலாம். வழக்கமான நோட்பேட் கோப்பில் தேவையான வழிமுறைகளை எழுதும் செயல்முறை கீழே வருகிறது, அதை நீங்கள் "ரோபோக்கள்" என்ற பெயரில் சேமித்து உங்கள் சொந்த ஆதாரத்தின் ரூட் கோப்பகத்தில் பதிவேற்ற வேண்டும். ஒரு தளத்திற்கு அத்தகைய கோப்பு ஒன்று தேவை. இது அனைத்து தொடர்புடைய தேடுபொறிகளின் தேடல் போட்களுக்கான வழிமுறைகளைக் கொண்டிருக்கலாம். அதாவது, ஒவ்வொரு தேடுபொறிக்கும் தனித்தனி கோப்பை உருவாக்க வேண்டிய அவசியமில்லை.

கோப்பில் என்ன எழுத வேண்டும்? இரண்டு வழிமுறைகளைப் பயன்படுத்துவது கட்டாயமாகும்: பயனர்-ஏஜென்ட் மற்றும் அனுமதிக்காதது. இந்தச் செய்தி எந்தப் போட்க்கு அனுப்பப்பட்டது என்பதை முதலில் தீர்மானிக்கிறது, இரண்டாவது எந்தப் பக்கம் அல்லது ஆதாரக் கோப்பகத்தை அட்டவணைப்படுத்துவது தடைசெய்யப்பட்டுள்ளது என்பதைக் காட்டுகிறது.

அனைத்து போட்களுக்கும் ஒரே விதிகளை அமைக்க, பயனர் முகவர் கட்டளையில் பெயருக்குப் பதிலாக நட்சத்திரக் குறியீட்டைப் பயன்படுத்தலாம்.
இந்த வழக்கில் robots.txt கோப்பு இப்படி இருக்கும்:

ரோபோட்ஸ்.txt கோப்பு அளவு 500 KB ஐ விட அதிகமாக இருக்கக்கூடாது என்பதை Google டெவலப்பர்கள் வெப்மாஸ்டர்களுக்கு மீண்டும் மீண்டும் நினைவூட்டியுள்ளனர். இது நிச்சயமாக அட்டவணைப்படுத்தலின் போது பிழைகளுக்கு வழிவகுக்கும். நீங்கள் ஒரு கோப்பை கைமுறையாக உருவாக்கினால், அத்தகைய அளவை "அடைவது", நிச்சயமாக, நம்பத்தகாதது. ஆனால் robots.txt உள்ளடக்கத்தை தானாக உருவாக்கும் சில CMSகள் அதை கணிசமாக கனமாக்கும்.

எந்த தேடுபொறிக்கும் எளிதாக ஒரு கோப்பை உருவாக்கவும்

ஒரு கோப்பை எழுதும்போது தவறுகளைச் செய்ய நீங்கள் பயப்படுகிறீர்கள் என்றால் (அல்லது இதைச் செய்ய மிகவும் சோம்பேறியாக இருந்தால்), தேவையான வழிமுறைகளை உருவாக்குவதை நீங்கள் கட்டமைப்பாளரிடம் ஒப்படைக்கலாம். இது இரண்டு மடங்கு எளிமையானது, ஆனால் அதனுடன் எவ்வாறு வேலை செய்வது என்பது பற்றிய ஒரு சிறிய விளக்கத்தை நாங்கள் இன்னும் தருவோம்.

முதல் புலத்தில் ஆதார முகவரி உள்ளது. இதற்குப் பிறகுதான், இந்த விதிகள் அமைக்கப்பட்டுள்ள தேடுபொறியைத் தேர்ந்தெடுக்க பயனருக்கு வாய்ப்பு கிடைக்கும் (நீங்கள் பல தேடுபொறிகளைத் தொடர்ச்சியாகத் தேர்ந்தெடுக்கலாம்). அடுத்து, அணுகல் தடைசெய்யப்படும் கோப்புறைகள் மற்றும் கோப்புகளை நீங்கள் குறிப்பிட வேண்டும், தள கண்ணாடியின் முகவரியைக் குறிப்பிடவும் மற்றும் ஆதார வரைபடத்தின் இருப்பிடத்தைக் குறிப்பிடவும்.

நீங்கள் புலங்களை நிரப்பும்போது, ​​தேவையான கோப்பகங்கள் கீழ் புலத்தில் உள்ளிடப்படும். இறுதியில் நீங்கள் செய்ய வேண்டியதெல்லாம், அவற்றை ஒரு txt கோப்பில் நகலெடுத்து, அதற்கு ரோபோக்கள் என்று பெயரிடுங்கள்.

உங்கள் robots.txt கோப்பின் செயல்திறனை எவ்வாறு சரிபார்க்கலாம்

Yandex இல் ஒரு கோப்பின் செயல்பாட்டை பகுப்பாய்வு செய்ய, நீங்கள் Yandex.Webmaster பிரிவில் தொடர்புடைய பக்கத்திற்குச் செல்ல வேண்டும். உரையாடல் பெட்டியில், தளத்தின் பெயரைக் குறிப்பிட்டு, "பதிவிறக்கு" பொத்தானைக் கிளிக் செய்யவும்.

கணினி robots.txt கோப்பைப் பகுப்பாய்வு செய்து, அட்டவணைப்படுத்துவதில் இருந்து தடைசெய்யப்பட்ட பக்கங்களை தேடல் ரோபோ வலைவலம் செய்யுமா என்பதைக் குறிக்கும். சிக்கல்கள் ஏற்பட்டால், கட்டளைகளை நேரடியாக உரையாடல் பெட்டியில் திருத்தலாம் மற்றும் சோதிக்கலாம், பின்னர் ரூட் கோப்பகத்தில் உங்கள் robots.txt கோப்பில் நகலெடுத்து ஒட்டலாம்.

கூகுள் தேடுபொறியிலிருந்து வெப்மாஸ்டர் கருவிகள் சேவையால் இதே போன்ற சேவை வழங்கப்படுகிறது.

WordPress, Joomla மற்றும் Ucoz ஆகியவற்றிற்கு robots.txt ஐ உருவாக்குகிறது

எங்கள் திறந்தவெளிகளில் பரவலான பிரபலத்தைப் பெற்ற பல்வேறு CMSகள் பயனர்களுக்கு robots.txt கோப்புகளின் சொந்த பதிப்புகளை வழங்குகின்றன (அல்லது அவை இல்லை). பெரும்பாலும் இந்த கோப்புகள் மிகவும் உலகளாவியவை மற்றும் பயனரின் வளத்தின் பண்புகளை கணக்கில் எடுத்துக்கொள்ளாது அல்லது பல குறிப்பிடத்தக்க குறைபாடுகளைக் கொண்டிருக்கவில்லை.

நீங்கள் அவற்றை கைமுறையாக மாற்ற முயற்சி செய்யலாம் (உங்களுக்கு அறிவு இல்லாவிட்டால் இது மிகவும் பயனுள்ளதாக இருக்காது), அல்லது அதிக தொழில்முறை சக ஊழியர்களின் அனுபவத்தைப் பயன்படுத்தலாம். அவர்கள் சொல்வது போல், எல்லாம் எங்களுக்கு முன்பே செய்யப்பட்டுள்ளது. எடுத்துக்காட்டாக, WordPress க்கான robots.txt இப்படி இருக்கலாம்:


www.site.ru என்ற வரி, நிச்சயமாக, பயனரின் வலைத்தளத்தின் முகவரியுடன் மாற்றப்பட வேண்டும்.

பின்வரும் போட்களுக்கான அட்டவணைப்படுத்தலைத் தடைசெய்க:

அனைவருக்கும்
யாண்டெக்ஸ்
கூகுள்
Mail.ru
ராம்லர்
பிங்
யாஹூ

முதன்மை தள டொமைன்:

பக்கங்கள் முழுவதும் ரோபோ மாற்றங்களுக்கு இடையிலான நேரம் முடிந்தது:
1 வினாடி 5 வினாடிகள் 10 வினாடிகள் 60 வினாடிகள்

தள வரைபடத்திற்குச் செல்வோம், sitemap.xml:

தயாராக robots.txt:

"robots.txt" கோப்பில் தரவைச் சேமித்து, தளத்தின் ரூட் கோப்புறையில் நகலெடுக்கவும்.


"Robots.txt ஜெனரேட்டர்" கருவி எதற்காகப் பயன்படுத்தப்படுகிறது?

சேவைத் தளம் உங்களுக்கு “Robots.txt Generator” கருவியை வழங்குகிறது, இதன் மூலம் நீங்கள் ஆன்லைனில் robots.txt கோப்பை சில நொடிகளில் உருவாக்கலாம், அத்துடன் குறிப்பிட்ட தேடுபொறிகள் மூலம் தளப் பக்கங்களை அட்டவணைப்படுத்துவதற்குத் தடை விதிக்கலாம்.

robots.txt என்றால் என்ன

Robots.txt என்பது தளத்தின் மூலத்தில் அமைந்துள்ள ஒரு கோப்பு மற்றும் தேடல் போட்களுக்கான வழிமுறைகளைக் கொண்டுள்ளது. எந்தவொரு ஆதாரத்தையும் பார்வையிடும்போது, ​​​​ரோபோக்கள் அதை robots.txt கோப்பிலிருந்து தெரிந்துகொள்ளத் தொடங்குகின்றன - ஒரு வகையான "பயன்பாட்டிற்கான வழிமுறைகள்". பதிப்பாளர் குறிப்பிடுகிறார் இந்த கோப்புஒரு ரோபோ ஒரு வளத்துடன் எவ்வாறு தொடர்பு கொள்ள வேண்டும். எடுத்துக்காட்டாக, இது குறிப்பிட்ட பக்கங்களை அட்டவணைப்படுத்துவதற்கான தடை அல்லது இணைய சேவையகத்திலிருந்து ஆவணங்களைச் சேமிப்பதற்கு இடையே ஒரு நேர இடைவெளியைப் பராமரிப்பதற்கான பரிந்துரையைக் கொண்டிருக்கலாம்.

கருவி திறன்கள்

வெப்மாஸ்டர் Yandex, Google, Mail.ru, Rambler, Bing அல்லது Yahoo! ஆகிய தேடுபொறிகளின் ரோபோக்களால் அட்டவணைப்படுத்தப்படுவதைத் தடைசெய்யலாம், அத்துடன் ஆதாரப் பக்கங்களில் தேடல் ரோபோ மாற்றங்களுக்கு இடையில் காலக்கெடுவை அமைக்கலாம் மற்றும் தேர்ந்தெடுக்கப்பட்ட பக்கங்களை அட்டவணைப்படுத்துவதைத் தடுக்கலாம். தளம். கூடுதலாக, ஒரு சிறப்பு வரியில் நீங்கள் ரோபோக்களை தள வரைபடத்திற்கான பாதையை (sitemap.xml) தேடுவதைக் குறிக்கலாம்.

கருவியின் அனைத்து புலங்களையும் பூர்த்தி செய்து "உருவாக்கு" பொத்தானைக் கிளிக் செய்த பிறகு, கணினி தானாகவே தேடல் போட்களுக்கான கோப்பை உருவாக்கும், அதை நீங்கள் உங்கள் தளத்தின் ரூட் மண்டலத்தில் வைக்க வேண்டும்.

robots.txt கோப்பை தேடல் முடிவுகளிலிருந்து ஒரு பக்கத்தை மறைக்கப் பயன்படுத்த முடியாது என்பதை நினைவில் கொள்ளவும், ஏனெனில் பிற ஆதாரங்கள் அதனுடன் இணைக்கப்படலாம், மேலும் தேடல் ரோபோக்கள் அதை ஒரு வழி அல்லது வேறு வகையில் அட்டவணைப்படுத்தும். தேடல் முடிவுகளில் ஒரு பக்கத்தைத் தடுக்க, சிறப்பு "noindex" குறிச்சொல்லைப் பயன்படுத்தவும் அல்லது கடவுச்சொல்லை அமைக்கவும் என்பதை நாங்கள் உங்களுக்கு நினைவூட்டுகிறோம்.

Robots.txt ஜெனரேட்டர் கருவியைப் பயன்படுத்தி நீங்கள் முற்றிலும் ஆலோசனைத் தன்மை கொண்ட கோப்பை உருவாக்குவீர்கள் என்பதும் குறிப்பிடத்தக்கது. நிச்சயமாக, robots.txt கோப்பில் வெப்மாஸ்டர்கள் தங்களுக்கு விட்டுச்சென்ற வழிமுறைகளை போட்கள் "கேளும்", ஆனால் சில நேரங்களில் அவை அவற்றைப் புறக்கணிக்கின்றன. இது ஏன் நடக்கிறது? ஒவ்வொரு தேடல் ரோபோவும் அதன் சொந்த அமைப்புகளைக் கொண்டிருப்பதால், அது robots.txt கோப்பிலிருந்து பெறப்பட்ட தகவலை விளக்குகிறது.

sitemap.xml கோப்பு மற்றும் தளத்திற்கான சரியான robots.txt இரண்டு கட்டாய ஆவணங்களாகும், அவை தேடல் ரோபோக்கள் மூலம் வலை வளத்தின் தேவையான அனைத்து பக்கங்களையும் விரைவாகவும் முழுமையாகவும் அட்டவணைப்படுத்துவதற்கு பங்களிக்கின்றன. தேடுபொறிகளில் வெற்றிகரமான வலைப்பதிவு விளம்பரத்திற்கு Yandex மற்றும் Google இல் சரியான தள அட்டவணைப்படுத்தல் முக்கியமானது.

எக்ஸ்எம்எல் வடிவமைப்பில் தளவரைபடத்தை எவ்வாறு உருவாக்குவது மற்றும் அது ஏன் தேவைப்படுகிறது என்பதை நான் ஏற்கனவே எழுதியுள்ளேன். வேர்ட்பிரஸ் தளத்திற்கான சரியான robots.txt ஐ எவ்வாறு உருவாக்குவது மற்றும் பொதுவாக அது ஏன் தேவைப்படுகிறது என்பதைப் பற்றி இப்போது பேசலாம். விரிவான தகவல்இந்த கோப்பைப் பற்றிய தகவல்களை முறையே Yandex மற்றும் Google இலிருந்து பெறலாம். எனது கோப்பினை உதாரணமாகப் பயன்படுத்தி வேர்ட்பிரஸ்ஸிற்கான அடிப்படை robots.txt அமைப்புகளைத் தொடுவேன்.

இணையதளத்திற்கு robots.txt கோப்பு ஏன் தேவை?

robots.txt தரநிலை ஜனவரி 1994 இல் மீண்டும் தோன்றியது. இணைய வளத்தை ஸ்கேன் செய்யும் போது, ​​தேடுதல் ரோபோக்களை முதலில் தேடுங்கள் உரை கோப்பு robots.txt, தளம் அல்லது வலைப்பதிவின் ரூட் கோப்புறையில் அமைந்துள்ளது. அதன் உதவியுடன், வெவ்வேறு தேடுபொறிகளின் ரோபோக்களுக்கான சில விதிகளை நாங்கள் குறிப்பிடலாம், அதன் மூலம் அவை தளத்தை அட்டவணைப்படுத்தும்.

robots.txtஐ சரியாக அமைப்பது உங்களை அனுமதிக்கும்:

  • குறியீட்டிலிருந்து நகல்களையும் பல்வேறு குப்பைப் பக்கங்களையும் விலக்கு;
  • நாம் மறைக்க விரும்பும் பக்கங்கள், கோப்புகள் மற்றும் கோப்புறைகளின் அட்டவணைப்படுத்தலைத் தடைசெய்க;
  • பொதுவாக சில தேடல் ரோபோக்களுக்கு அட்டவணைப்படுத்துவதை மறுக்கிறது (உதாரணமாக, போட்டியாளர்களிடமிருந்து உள்வரும் இணைப்புகள் பற்றிய தகவலை மறைக்க Yahoo);
  • தளத்தின் பிரதான கண்ணாடியைக் குறிக்கவும் (www உடன் அல்லது www இல்லாமல்);
  • sitemap.xml தளவரைபடத்திற்கான பாதையை குறிப்பிடவும்.

ஒரு தளத்திற்கான சரியான robots.txt ஐ எவ்வாறு உருவாக்குவது

இந்த நோக்கத்திற்காக சிறப்பு ஜெனரேட்டர்கள் மற்றும் செருகுநிரல்கள் உள்ளன, ஆனால் இதை கைமுறையாக செய்வது நல்லது.

நீங்கள் robots.txt எனப்படும் வழக்கமான உரைக் கோப்பை உருவாக்க வேண்டும், ஏதேனும் உரை திருத்தியைப் பயன்படுத்தி (எடுத்துக்காட்டாக, நோட்பேட் அல்லது நோட்பேட்++) அதை உங்கள் வலைப்பதிவின் ரூட் கோப்புறையில் உங்கள் ஹோஸ்டிங்கில் பதிவேற்றவும். இந்த கோப்பில் சில வழிமுறைகள் எழுதப்பட்டிருக்க வேண்டும், அதாவது. யாண்டெக்ஸ், கூகுள் போன்றவற்றின் ரோபோக்களுக்கான குறியீட்டு விதிகள்.

நீங்கள் இதைப் பற்றி கவலைப்பட மிகவும் சோம்பேறியாக இருந்தால், எனது பார்வையில், எனது வலைப்பதிவில் இருந்து WordPress க்கான சரியான robots.txt இன் உதாரணத்தை கீழே தருகிறேன். மூன்று இடங்களில் டொமைன் பெயரை மாற்றுவதன் மூலம் இதைப் பயன்படுத்தலாம்.

Robots.txt உருவாக்க விதிகள் மற்றும் வழிமுறைகள்

வெற்றிக்காக தேடுபொறி உகப்பாக்கம்வலைப்பதிவு robots.txt ஐ உருவாக்குவதற்கான சில விதிகளை நீங்கள் தெரிந்து கொள்ள வேண்டும்:

  • இல்லாமை அல்லது வெற்று கோப்பு robots.txt என்பது வலை வளத்தின் அனைத்து உள்ளடக்கத்தையும் அட்டவணைப்படுத்த தேடுபொறிகள் அனுமதிக்கப்படுகின்றன என்று அர்த்தம்.
  • robots.txt உங்கள் site.ru/robots.txt என்ற முகவரியில் திறக்கப்பட வேண்டும், ரோபோவுக்கு 200 சரி என்ற மறுமொழிக் குறியீட்டைக் கொடுக்க வேண்டும் மற்றும் 32 KB அளவுக்கு அதிகமாக இருக்கக்கூடாது. திறக்கத் தவறிய கோப்பு (உதாரணமாக, 404 பிழை காரணமாக) அல்லது பெரியதாக இருந்தால் சரி எனக் கருதப்படும்.
  • கோப்பில் உள்ள கட்டளைகளின் எண்ணிக்கை 1024 ஐ விட அதிகமாக இருக்கக்கூடாது. ஒரு வரியின் நீளம் 1024 எழுத்துகளுக்கு மிகாமல் இருக்க வேண்டும்.
  • செல்லுபடியாகும் robots.txt கோப்பில் பல அறிக்கைகள் இருக்கலாம், அவை ஒவ்வொன்றும் ஒரு பயனர் முகவர் கட்டளையுடன் தொடங்க வேண்டும் மற்றும் குறைந்தபட்சம் ஒரு அனுமதி மறுப்பு கட்டளையைக் கொண்டிருக்க வேண்டும். வழக்கமாக அவர்கள் Google மற்றும் பிற அனைத்து ரோபோக்களுக்கும் மற்றும் Yandex க்கும் தனித்தனியாக robots.txt இல் வழிமுறைகளை எழுதுகிறார்கள்.

அடிப்படை robots.txt வழிமுறைகள்:

பயனர் முகவர் - எந்த தேடல் ரோபோவிற்கு அறிவுறுத்தல் கொடுக்கப்பட்டுள்ளது என்பதைக் குறிக்கிறது.

"*" என்ற குறியீடு அனைத்து ரோபோக்களுக்கும் பொருந்தும், எடுத்துக்காட்டாக:

பயனர் முகவர்: *

Yandex க்கான robots.txt இல் ஒரு விதியை உருவாக்க வேண்டும் என்றால், நாங்கள் எழுதுகிறோம்:

பயனர் முகவர்: Yandex

ஒரு குறிப்பிட்ட ரோபோவுக்கு உத்தரவு குறிப்பிடப்பட்டால், பயனர் முகவர்: * உத்தரவு அது கணக்கில் எடுத்துக்கொள்ளப்படாது.

அனுமதிக்காதது மற்றும் அனுமதி - முறையே, குறிப்பிட்ட பக்கங்களை அட்டவணைப்படுத்த ரோபோக்களை தடைசெய்து அனுமதிக்கவும். அனைத்து முகவரிகளும் தளத்தின் மூலத்திலிருந்து குறிப்பிடப்பட வேண்டும், அதாவது. மூன்றாவது சாய்வில் இருந்து தொடங்குகிறது. உதாரணமாக:

  • அனைத்து ரோபோக்களும் முழு தளத்தையும் அட்டவணைப்படுத்துவதைத் தடுக்கிறது:

    பயனர் முகவர்: *
    அனுமதிக்காதே: /

  • /wp-admin உடன் தொடங்கும் அனைத்து பக்கங்களையும் அட்டவணைப்படுத்துவதற்கு Yandex தடைசெய்யப்பட்டுள்ளது:

    பயனர் முகவர்: Yandex
    அனுமதிக்காதே: /wp-admin

  • வெற்று அனுமதி மறுப்பு உத்தரவு எல்லாவற்றையும் அட்டவணைப்படுத்த அனுமதிக்கிறது மற்றும் அனுமதி போன்றது. எடுத்துக்காட்டாக, முழு தளத்தையும் அட்டவணைப்படுத்த Yandex ஐ அனுமதிக்கிறேன்:

    பயனர் முகவர்: Yandex
    அனுமதிக்காதே:

  • இதற்கு நேர்மாறாக, எல்லா தேடல் ரோபோக்களையும் அனைத்து பக்கங்களையும் அட்டவணைப்படுத்துவதை நான் தடைசெய்கிறேன்:

    பயனர் முகவர்: *
    அனுமதி:

  • ஒரே பயனர் முகவர் தொகுதியிலிருந்து அனுமதி மற்றும் அனுமதி மறுப்பு உத்தரவுகள் URL முன்னொட்டு நீளத்தின்படி வரிசைப்படுத்தப்பட்டு தொடர்ச்சியாக செயல்படுத்தப்படும். தளத்தின் ஒரு பக்கத்திற்கு பல வழிமுறைகள் பொருத்தமானதாக இருந்தால், பட்டியலில் உள்ள கடைசியானது செயல்படுத்தப்படும். இப்போது ரோபோ கட்டளைகளைப் பயன்படுத்தும் போது அவை எழுதப்பட்ட வரிசை ஒரு பொருட்டல்ல. கட்டளைகளில் ஒரே நீளத்தின் முன்னொட்டுகள் இருந்தால், முதலில் அனுமதி செயல்படுத்தப்படும். இந்த விதிகள் மார்ச் 8, 2012 முதல் அமலுக்கு வந்தன. எடுத்துக்காட்டாக, இது /wp-includes உடன் தொடங்கும் பக்கங்களை மட்டுமே அட்டவணைப்படுத்த அனுமதிக்கிறது:

    பயனர் முகவர்: Yandex
    அனுமதிக்காதே: /
    அனுமதி: /wp-அடங்கும்

தளவரைபடம் – XML தளவரைபட முகவரியைக் குறிப்பிடுகிறது. ஒரு தளத்தில் பல தளவரைபட வழிமுறைகள் இருக்கலாம், அவை உள்ளமைக்கப்படலாம். தள அட்டவணைப்படுத்தலை விரைவுபடுத்த அனைத்து தளவரைபட கோப்பு முகவரிகளும் robots.txt இல் குறிப்பிடப்பட வேண்டும்:

தளவரைபடம்: http://site/sitemap.xml.gz
தளவரைபடம்: http://site/sitemap.xml

புரவலன் - எந்த இணையதள கண்ணாடியை பிரதானமாக கருத வேண்டும் என்பதை மிரர் ரோபோவிடம் கூறுகிறது.

தளம் பல முகவரிகளில் அணுகக்கூடியதாக இருந்தால் (உதாரணமாக, www மற்றும் www இல்லாமல்), இது முழு நகல் பக்கங்களை உருவாக்குகிறது, அதை வடிகட்டி மூலம் பிடிக்கலாம். மேலும், இந்த வழக்கில், இது குறியிடப்பட்ட முக்கிய பக்கமாக இருக்காது, ஆனால் பிரதான பக்கம், மாறாக, குறியீட்டிலிருந்து விலக்கப்படும். தேடுபொறி. இதைத் தடுக்க, புரவலன் கட்டளையைப் பயன்படுத்தவும், இது robots.txt கோப்பில் Yandex க்காக மட்டுமே உள்ளது மற்றும் ஒன்று மட்டுமே இருக்க முடியும். இது Disallow மற்றும் Allow என்பதன் பின் எழுதப்பட்டு இப்படி இருக்கும்:

புரவலன்: இணையதளம்

வலைவலம்-தாமதம் - வினாடிகளில் பக்கங்களைப் பதிவிறக்குவதற்கான தாமதத்தை அமைக்கிறது. அதிக சுமை இருந்தால் மற்றும் கோரிக்கைகளைச் செயல்படுத்த சேவையகத்திற்கு நேரம் இல்லை என்றால் பயன்படுத்தப்படும். இளம் தளங்களில் கிரால்-தாமத உத்தரவைப் பயன்படுத்தாமல் இருப்பது நல்லது. இது இவ்வாறு எழுதப்பட்டுள்ளது:

பயனர் முகவர்: Yandex
வலம்-தாமதம்: 4

Clean-param - Yandex ஆல் மட்டுமே ஆதரிக்கப்படுகிறது மற்றும் மாறிகள் கொண்ட நகல் பக்கங்களை அகற்றவும், அவற்றை ஒன்றாக இணைக்கவும் பயன்படுகிறது. இதனால், Yandex ரோபோ ஒத்த பக்கங்களை பல முறை பதிவிறக்கம் செய்யாது, எடுத்துக்காட்டாக, பரிந்துரை இணைப்புகளுடன் தொடர்புடையவை. இந்த உத்தரவை நான் இன்னும் பயன்படுத்தவில்லை, ஆனால் Yandex க்கான robots.txt இல் உள்ள உதவியில், கட்டுரையின் தொடக்கத்தில் உள்ள இணைப்பைப் பின்தொடரவும், இந்த உத்தரவை நீங்கள் விரிவாகப் படிக்கலாம்.

சிறப்பு எழுத்துகள் * மற்றும் $ ஆகியவை robots.txt இல் பயன்படுத்தப்படும் அனுமதி மறுப்பு மற்றும் அனுமதி உத்தரவுகளின் பாதைகளைக் குறிக்கும்:

  • சிறப்பு எழுத்து "*" என்பது எழுத்துகளின் எந்த வரிசையையும் குறிக்கிறது. எடுத்துக்காட்டாக, அனுமதிக்காதது: /*?* என்பது, இந்த எழுத்துக்கு முன்னும் பின்னும் எந்த எழுத்துகள் வந்தாலும், முகவரியில் “?” தோன்றும் எந்தப் பக்கத்திலும் தடை. இயல்பாக, ஒவ்வொரு விதியின் முடிவிலும் "*" சிறப்பு எழுத்து சேர்க்கப்படும், அது குறிப்பாக குறிப்பிடப்படாவிட்டாலும் கூட.
  • "$" சின்னம் விதியின் முடிவில் உள்ள "*" ஐ ரத்து செய்கிறது மற்றும் கண்டிப்பான பொருத்தத்தைக் குறிக்கிறது. எடுத்துக்காட்டாக, அனுமதிக்காதது: /*?$ கட்டளையானது "?" என்ற எழுத்துடன் முடிவடைவதைத் தடுக்கும்.

WordPress க்கான உதாரணம் robots.txt

WordPress இன்ஜினில் உள்ள வலைப்பதிவுக்கான எனது robots.txt கோப்பின் எடுத்துக்காட்டு இங்கே:

பயனர்-ஏஜெண்ட்: * அனுமதி மறுக்கவும்: /cgi-bin அனுமதிக்காது: /wp-admin அனுமதிக்காது: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback அனுமதிக்காதே: */trackback அனுமதிக்காதே: */*/trackback அனுமதிக்காதே: /feed/ அனுமதிக்காதே: */*/feed/*/ அனுமதிக்காதே: */feed அனுமதிக்காதே: /*?* அனுமதிக்காதே: /?s= பயனர் முகவர்: Yandex அனுமதிக்காதே trackback அனுமதிக்காதே: */*/trackback அனுமதிக்காதே: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

பயனர்-ஏஜெண்ட்: * அனுமதி மறுக்கவும்: /cgi-bin அனுமதிக்காது: /wp-admin அனுமதிக்காது: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback அனுமதிக்காதே: */trackback அனுமதிக்காதே: */*/trackback அனுமதிக்காதே: /feed/ அனுமதிக்காதே: */*/feed/*/ அனுமதிக்காதே: */feed அனுமதிக்காதே: /*?* அனுமதிக்காதே: /?s= பயனர் முகவர்: Yandex அனுமதிக்காதே trackback அனுமதிக்காதே: */*/trackback அனுமதிக்காதே: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

WordPress க்கான சரியான robots.txt ஐ உருவாக்குவதன் மூலம் உங்களை ஏமாற்றாமல் இருக்க, நீங்கள் இந்தக் கோப்பைப் பயன்படுத்தலாம். அட்டவணைப்படுத்துவதில் எந்த பிரச்சனையும் இல்லை. என்னிடம் நகல் பாதுகாப்பு ஸ்கிரிப்ட் உள்ளது, எனவே ரெடிமேட் robots.txt ஐ பதிவிறக்கம் செய்து அதை உங்கள் ஹோஸ்டிங்கில் பதிவேற்றுவது மிகவும் வசதியாக இருக்கும். புரவலன் மற்றும் தளவரைபட உத்தரவுகளில் எனது தளத்தின் பெயரை உங்களின் பெயருடன் மாற்ற மறக்காதீர்கள்.

WordPress க்கான robots.txt கோப்பை சரியாக அமைப்பதற்கான பயனுள்ள சேர்த்தல்கள்

உங்கள் வேர்ட்பிரஸ் வலைப்பதிவில் மரக் கருத்துகள் நிறுவப்பட்டிருந்தால், அவை ?replytocom= படிவத்தின் நகல் பக்கங்களை உருவாக்குகின்றன. robots.txt இல், அத்தகைய பக்கங்கள் அனுமதிக்காதவை: /*?* கட்டளையுடன் மூடப்படும். ஆனால் இது ஒரு தீர்வாகாது, தடைகளை நீக்கி, மற்றொரு வழியில் replytocom உடன் போராடுவது நல்லது. என்ன, .

எனவே, ஜூலை 2014 இன் தற்போதைய robots.txt இது போல் தெரிகிறது:

பயனர்-ஏஜெண்ட்: * அனுமதிக்காதது: /wp-உள்ளடக்கம் அனுமதிக்காது: /wp-feed அனுமதிக்காது: /wp-content/plugins அனுமதிக்காது: /wp-content/cache Disallow: /wp-content/themes பயனர்-முகவர்: Yandex Disallow: /wp -உள்ளடக்கப்பட்டது அனுமதிக்காதது: /wp-feed அனுமதிப்பதில்லை: /wp-content/plugins அனுமதிக்காது: /wp-content/cache அனுமதிக்காது: /wp-content/themes ஹோஸ்ட்: site.ru பயனர்-ஏஜென்ட்: Googlebot-படம் அனுமதி: /wp-content /uploads/ பயனர் முகவர்: YandexImages அனுமதி: /wp-content/uploads/ தள வரைபடம்: http://site.ru/sitemap.xml

பயனர்-ஏஜெண்ட்: * அனுமதிக்காதது: /wp-உள்ளடக்கம் அனுமதிக்காது: /wp-feed அனுமதிக்காது: /wp-content/plugins அனுமதிக்காது: /wp-content/cache Disallow: /wp-content/themes பயனர்-முகவர்: Yandex Disallow: /wp -உள்ளடக்கப்பட்டது அனுமதிக்காதது: /wp-feed அனுமதிப்பதில்லை: /wp-content/plugins அனுமதிக்காது: /wp-content/cache அனுமதிக்காது: /wp-content/themes ஹோஸ்ட்: site.ru பயனர்-ஏஜென்ட்: Googlebot-படம் அனுமதி: /wp-content /uploads/ பயனர் முகவர்: YandexImages அனுமதி: /wp-content/uploads/ தள வரைபடம்: http://site.ru/sitemap.xml

இது பட அட்டவணையிடல் ரோபோக்களுக்கான விதிகளை கூடுதலாக அமைக்கிறது.

பயனர் முகவர்: Mediapartners-Google
அனுமதிக்காதே:

வகை அல்லது குறிச்சொல் பக்கங்களை விளம்பரப்படுத்த நீங்கள் திட்டமிட்டால், அவற்றை ரோபோக்களுக்குத் திறக்க வேண்டும். எடுத்துக்காட்டாக, வலைப்பதிவு இணையதளத்தில், பிரிவுகள் அட்டவணைப்படுத்தலில் இருந்து மூடப்படவில்லை, ஏனெனில் அவை கட்டுரைகளின் சிறிய அறிவிப்புகளை மட்டுமே வெளியிடுகின்றன, இது உள்ளடக்கத்தை நகலெடுப்பதில் மிகவும் சிறியது. தனித்துவமான அறிவிப்புகளால் நிரப்பப்பட்ட வலைப்பதிவு ஊட்டத்தில் மேற்கோள்களின் காட்சியைப் பயன்படுத்தினால், நகல் எதுவும் இருக்காது.

மேலே உள்ள செருகுநிரலை நீங்கள் பயன்படுத்தவில்லை எனில், குறிச்சொற்கள், வகைகள் மற்றும் காப்பகங்களை அட்டவணைப்படுத்துவதைத் தடைசெய்ய உங்கள் robots.txt கோப்பில் குறிப்பிடலாம். எடுத்துக்காட்டாக, பின்வரும் வரிகளைச் சேர்த்தல்:

அனுமதிக்காதே: /author/
அனுமதிக்காதே: / டேக்
அனுமதிக்காதே: /வகை/*/*
அனுமதிக்காதே: /20*

Yandex.Webmaster பேனலில் robots.txt கோப்பைச் சரிபார்த்து, அதை உங்கள் ஹோஸ்டிங்கில் மீண்டும் பதிவேற்றவும்.

robots.txt ஐ உள்ளமைக்க ஏதேனும் சேர்த்தல்கள் இருந்தால், அதைப் பற்றி கருத்துகளில் எழுதவும். இப்போது அது என்ன மற்றும் ஒரு தளத்திற்கான சரியான robots.txt ஐ எவ்வாறு உருவாக்குவது, robots.txt கோப்பில் அட்டவணையிடுவதைத் தடுப்பது மற்றும் பிழைகளைச் சரிசெய்வது பற்றிய வீடியோவைப் பார்க்கவும்.

robots.txt கோப்பு உங்கள் தளத்தின் ரூட் கோப்பகத்தில் உள்ளது. எடுத்துக்காட்டாக, www.example.com தளத்தில் robots.txt கோப்பு முகவரி www.example.com/robots.txt போல் இருக்கும். robots.txt கோப்பு என்பது ரோபோ விலக்கு தரநிலையைப் பின்பற்றும் ஒரு எளிய உரைக் கோப்பாகும், மேலும் ஒன்று அல்லது அதற்கு மேற்பட்ட விதிகளை உள்ளடக்கியது, இவை ஒவ்வொன்றும் தளத்தில் ஒரு குறிப்பிட்ட பாதையை அணுக ஒரு குறிப்பிட்ட கிராலர் மறுக்கின்றன அல்லது அனுமதிக்கின்றன.

இதோ ஒரு உதாரணம் எளிய கோப்புஇரண்டு விதிகளுடன் robots.txt. கீழே விளக்கங்கள் உள்ளன.

# குழு 1 பயனர் முகவர்: Googlebot அனுமதிக்காது: /nogooglebot/ # குழு 2 பயனர் முகவர்: * அனுமதி: / தளவரைபடம்: http://www.example.com/sitemap.xml

விளக்கங்கள்

  1. Googlebot எனப்படும் பயனர் முகவர் http://example.com/nogooglebot/ கோப்பகத்தையும் அதன் துணை அடைவுகளையும் வலைவலம் செய்யக்கூடாது.
  2. மற்ற அனைத்து பயனர் முகவர்களும் முழு தளத்திற்கான அணுகலைக் கொண்டுள்ளனர் (தவிர்க்கப்படலாம், முழு அணுகல் இயல்புநிலையாக வழங்கப்படுவதால் முடிவு ஒரே மாதிரியாக இருக்கும்).
  3. தளவரைபடக் கோப்புஇந்த தளம் http://www.example.com/sitemap.xml இல் உள்ளது.

robots.txt கோப்புகளுடன் வேலை செய்வதற்கான சில குறிப்புகள் கீழே உள்ளன. இந்தக் கோப்புகளை உருவாக்கப் பயன்படுத்தப்படும் தொடரியல் விதிகள் வெளிப்படையாக இல்லாததால், நீங்கள் அவற்றைப் புரிந்து கொள்ள வேண்டும் என்பதால், அவற்றை முழுமையாகப் படிக்குமாறு பரிந்துரைக்கிறோம்.

வடிவம் மற்றும் தளவமைப்பு

UTF-8 குறியாக்கத்தை ஆதரிக்கும் எந்த உரை திருத்தியிலும் robots.txt கோப்பை உருவாக்கலாம். பயன்படுத்த வேண்டாம் சொல் செயலிகள், ஏனெனில் அவை பெரும்பாலும் தனியுரிம வடிவத்தில் கோப்புகளைச் சேமித்து, தேடல் ரோபோக்களால் அங்கீகரிக்கப்படாத சுருள் மேற்கோள்கள் போன்ற தவறான எழுத்துக்களைச் சேர்க்கின்றன.

robots.txt கோப்புகளை உருவாக்கி சோதிக்கும் போது, ​​சோதனைக் கருவியைப் பயன்படுத்தவும். ஒரு கோப்பின் தொடரியல் பகுப்பாய்வு மற்றும் உங்கள் தளத்தில் அது எவ்வாறு செயல்படும் என்பதைக் கண்டறிய இது உங்களை அனுமதிக்கிறது.

கோப்பு வடிவம் மற்றும் இருப்பிடம் தொடர்பான விதிகள்

  • கோப்புக்கு robots.txt என்று பெயரிட வேண்டும்.
  • தளத்தில் ஒரே ஒரு கோப்பு மட்டுமே இருக்க வேண்டும்.
  • robots.txt கோப்பு கண்டிப்பாக வைக்கப்பட வேண்டும் ரூட் அடைவுதளம். எடுத்துக்காட்டாக, http://www.example.com/ தளத்தில் உள்ள அனைத்துப் பக்கங்களும் வலம் வருவதைக் கட்டுப்படுத்த, robots.txt கோப்பு http://www.example.com/robots.txt இல் இருக்க வேண்டும். இது துணை அடைவில் இருக்கக்கூடாது(எடுத்துக்காட்டாக, முகவரியில் http://example.com/pages/robots.txt) ரூட் கோப்பகத்தை அணுகுவதில் உங்களுக்கு சிரமம் இருந்தால், உங்கள் ஹோஸ்டிங் வழங்குநரைத் தொடர்பு கொள்ளவும். தளத்தின் ரூட் கோப்பகத்திற்கான அணுகல் உங்களிடம் இல்லையென்றால், பயன்படுத்தவும் மாற்று முறைமெட்டா குறிச்சொற்கள் போன்ற பூட்டுகள்.
  • robots.txt கோப்பை உள்ள முகவரிகளில் சேர்க்கலாம் துணை டொமைன்கள்(உதாரணமாக http:// இணையதளம்.example.com/robots.txt) அல்லது தரமற்ற போர்ட்கள் (எடுத்துக்காட்டாக, http://example.com: 8181 /robots.txt).
  • # சின்னத்திற்குப் பிறகு எந்த உரையும் கருத்துக்களாகக் கருதப்படுகிறது.

தொடரியல்

  • robots.txt கோப்பு UTF-8 இல் குறியிடப்பட்ட உரைக் கோப்பாக இருக்க வேண்டும் (இதில் ASCII எழுத்துக்குறி குறியீடுகளும் அடங்கும்). மற்ற எழுத்துத் தொகுப்புகளைப் பயன்படுத்த முடியாது.
  • robots.txt கோப்பு கொண்டுள்ளது குழுக்கள்.
  • ஒவ்வொன்றும் குழுபலவற்றைக் கொண்டிருக்கலாம் விதிகள், ஒரு வரிக்கு ஒன்று. இந்த விதிகள் என்றும் அழைக்கப்படுகின்றன உத்தரவுகள்.
  • குழுவில் பின்வரும் தகவல்கள் உள்ளன:
    • எதற்கு பயனர் முகவர்குழு வழிகாட்டுதல்கள் பொருந்தும்.
    • அணுகல் வேண்டும்.
    • இந்த முகவர் எந்த கோப்பகங்கள் அல்லது கோப்புகளை அணுகுகிறார்? அணுகல் இல்லை.
  • குழு வழிமுறைகள் மேலிருந்து கீழாக படிக்கப்படுகின்றன. ரோபோ ஒரு குழுவின் விதிகளைப் பின்பற்றும் பயனர் முகவருடன் மிகவும் நெருக்கமாகப் பொருந்தும்.
  • முன்னிருப்பாக அது கருதப்படுகிறதுஒரு பக்கம் அல்லது கோப்பகத்திற்கான அணுகல் Disallow: விதியால் தடுக்கப்படாவிட்டால், பயனர் முகவர் அதைச் செயல்படுத்தலாம்.
  • விதிகள் வழக்கு உணர்திறன். எனவே, அனுமதி வேண்டாம்

robots.txt கோப்புகளில் பயன்படுத்தப்படும் வழிமுறைகள்

  • பயனர் முகவர்: கட்டாய உத்தரவு, ஒரு குழுவில் இவற்றில் பல இருக்கலாம். எந்த தேடுபொறியைத் தீர்மானிக்கிறது ரோபோவிதிகள் பொருந்த வேண்டும். ஒவ்வொரு குழுவும் இந்த வரியுடன் தொடங்குகிறது. கூகுள் ரோபோட்களுடன் தொடர்புடைய பெரும்பாலான பயனர் முகவர்கள் சிறப்புப் பட்டியலிலும் இணைய ரோபோட் தரவுத்தளத்திலும் காணப்படுகின்றனர். * வைல்டு கார்டு எழுத்து ஒரு முன்னொட்டு, ஒரு பாதையின் பின்னொட்டு அல்லது முழு பாதையையும் குறிக்க துணைபுரிகிறது. அனைத்து கிராலர்களுக்கான அணுகலைத் தடுக்க கீழே உள்ள எடுத்துக்காட்டில் காட்டப்பட்டுள்ளபடி * அடையாளத்தைப் பயன்படுத்தவும் ( AdsBot ரோபோக்கள் தவிர, இது தனித்தனியாக குறிப்பிடப்பட வேண்டும்). கூகுள் ரோபோட்களின் பட்டியலை நீங்கள் நன்கு அறிந்திருக்குமாறு பரிந்துரைக்கிறோம். எடுத்துக்காட்டுகள்:# எடுத்துக்காட்டு. அனைத்து ரோபோக்கள் , AdsBot பயனர் முகவர் தவிர: * அனுமதிக்காதே: /
  • அனுமதிக்காதே: . மேலே வரையறுக்கப்பட்ட பயனர் முகவரால் வலைவலம் செய்ய முடியாத ரூட் டொமைனுடன் தொடர்புடைய கோப்பகம் அல்லது பக்கத்திற்கான புள்ளிகள். இது ஒரு பக்கமாக இருந்தால், உலாவியின் முகவரிப் பட்டியில் உள்ளதைப் போல அதற்கான முழுப் பாதையும் குறிப்பிடப்பட வேண்டும். இது ஒரு கோப்பகமாக இருந்தால், பாதை ஒரு சாய்வுடன் (/) முடிவடைய வேண்டும். * வைல்டு கார்டு எழுத்து ஒரு முன்னொட்டு, ஒரு பாதையின் பின்னொட்டு அல்லது முழு பாதையையும் குறிக்க துணைபுரிகிறது.
  • அனுமதி: ஒவ்வொரு குழுவிலும் குறைந்தபட்சம் ஒன்று அனுமதிக்காதது: அல்லது அனுமதி: உத்தரவு இருக்க வேண்டும். மேலே வரையறுக்கப்பட்ட பயனர் முகவரால் வலைவலம் செய்யக்கூடிய ரூட் டொமைனுடன் தொடர்புடைய கோப்பகம் அல்லது பக்கத்திற்கான புள்ளிகள். அனுமதிக்காத கட்டளையை மேலெழுதவும், ஸ்கேனிங்கிற்காக மூடப்பட்ட கோப்பகத்தில் உள்ள துணை அடைவு அல்லது பக்கத்தை ஸ்கேன் செய்ய அனுமதிக்கவும் பயன்படுகிறது. இது ஒரு பக்கமாக இருந்தால், உலாவியின் முகவரிப் பட்டியில் உள்ளதைப் போல அதற்கான முழுப் பாதையும் குறிப்பிடப்பட வேண்டும். இது ஒரு கோப்பகமாக இருந்தால், பாதை ஒரு சாய்வுடன் (/) முடிவடைய வேண்டும். ஒரு பாதையின் முன்னொட்டு, பின்னொட்டு அல்லது முழு பாதையையும் குறிக்க * வைல்டு கார்டு எழுத்து ஆதரிக்கப்படுகிறது.
  • தளவரைபடம்: கோப்பில் பல அல்லது எதுவுமே இல்லாமல் இருக்கலாம்.இந்தத் தளத்தில் பயன்படுத்தப்படும் தளவரைபடத்தின் இருப்பிடத்தைக் குறிக்கிறது. URL முழுமையாக இருக்க வேண்டும். http மற்றும் https முன்னொட்டுகள் அல்லது www உறுப்புடன் அல்லது இல்லாமல் URL மாறுபாடுகளை Google செயலாக்கவோ அல்லது சரிபார்க்கவோ இல்லை. தளவரைபடங்கள்என்ன உள்ளடக்கம் என்பதை Googleளிடம் சொல்லுங்கள் வேண்டும்ஸ்கேன் மற்றும் உள்ளடக்கத்திலிருந்து அதை எவ்வாறு வேறுபடுத்துவது முடியும்அல்லது அது தடைசெய்யப்பட்டுள்ளதுஸ்கேன். எடுத்துக்காட்டு:தளவரைபடம்: https://example.com/sitemap.xml தளவரைபடம்: http://www.example.com/sitemap.xml

மற்ற விதிகள் புறக்கணிக்கப்படுகின்றன.

மற்றொரு உதாரணம்

robots.txt கோப்பில் குழுக்கள் உள்ளன. அவை ஒவ்வொன்றும் ஒரு பயனர் முகவர் வரியுடன் தொடங்குகிறது, இது விதிகளைப் பின்பற்ற வேண்டிய ரோபோவை வரையறுக்கிறது. இரண்டு குழுக்களைக் கொண்ட கோப்பின் எடுத்துக்காட்டு மற்றும் இரண்டிற்கும் விளக்கக் கருத்துகள் கீழே உள்ளன.

# Googlebot இன் example.com/directory1/... மற்றும் example.com/directory2/க்கான அணுகலைத் தடுக்கவும்... # ஆனால் directory2/subdirectory1/க்கான அணுகலை அனுமதிக்கவும்... # மற்ற எல்லா கோப்பகங்களுக்கான அணுகல் இயல்பாகவே அனுமதிக்கப்படுகிறது. பயனர் முகவர்: googlebot அனுமதிக்காது: /directory1/ அனுமதிப்பதில்லை: /directory2/ அனுமதி: /directory2/subdirectory1/ # மற்றொரு தேடுபொறிக்கான முழு தளத்திற்கான அணுகலைத் தடுக்கவும். பயனர் முகவர்: மற்றொரு கிராலர் அனுமதிக்காது: /

robots.txt கோப்பின் முழு தொடரியல்

முழு தொடரியல் இந்த கட்டுரையில் விவரிக்கப்பட்டுள்ளது. robots.txt கோப்பின் தொடரியல் சில முக்கியமான நுணுக்கங்கள் இருப்பதால், அதை நீங்கள் நன்கு அறிந்திருக்குமாறு பரிந்துரைக்கிறோம்.

பயனுள்ள விதிகள்

robots.txt கோப்பிற்கான சில பொதுவான விதிகள் இங்கே:

விதி உதாரணம்
தளம் முழுவதும் வலம் வர தடை.சில சந்தர்ப்பங்களில், தள URLகள் வலைவலம் செய்யப்படாவிட்டாலும் குறியீட்டில் இருக்கலாம் என்பதை நினைவில் கொள்ளவும். இந்த விதி AdsBot ரோபோக்களுக்குப் பொருந்தாது என்பதை நினைவில் கொள்ளவும், அவை தனித்தனியாக குறிப்பிடப்பட வேண்டும். பயனர் முகவர்: * அனுமதிக்காதே: /
ஒரு கோப்பகம் மற்றும் அதன் அனைத்து உள்ளடக்கங்களையும் ஸ்கேன் செய்வதைத் தடுக்க, கோப்பகத்தின் பெயருக்குப் பிறகு முன்னோக்கி சாய்வை வைக்கவும். பாதுகாப்பிற்காக robots.txt ஐப் பயன்படுத்த வேண்டாம் ரகசிய தகவல்! இந்த நோக்கங்களுக்காக அங்கீகாரம் பயன்படுத்தப்பட வேண்டும். robots.txt கோப்பினால் வலைவலம் செய்யப்படுவதைத் தடுக்கும் URLகளை அட்டவணைப்படுத்தலாம், மேலும் robots.txt கோப்பின் உள்ளடக்கங்களை எந்தப் பயனரும் பார்க்கலாம், இதன்மூலம் முக்கியமான தகவலுடன் கோப்புகளின் இருப்பிடத்தை வெளிப்படுத்தலாம். பயனர்-ஏஜெண்ட்: * அனுமதி மறுப்பு: /calendar/ Disallow: /junk/
ஒரே ஒரு கிராலர் மூலம் ஊர்ந்து செல்ல அனுமதிக்க பயனர் முகவர்: Googlebot-செய்தி அனுமதி: / பயனர் முகவர்: * அனுமதிக்காதே: /
ஒன்றைத் தவிர அனைத்து கிராலர்களுக்கும் வலம் வர அனுமதிக்க பயனர் முகவர்: தேவையற்ற போட் அனுமதிக்காது: / பயனர் முகவர்: * அனுமதி: /

ஒரு குறிப்பிட்ட பக்கத்தை வலைவலம் செய்வதைத் தடுக்க, சாய்வுக்குப் பிறகு இந்தப் பக்கத்தைக் குறிப்பிடவும்.

பயனர் முகவர்: * அனுமதி மறுக்கவும்: /private_file.html

கூகுள் இமேஜஸ் ரோபோவிலிருந்து ஒரு குறிப்பிட்ட படத்தை மறைக்க

பயனர் முகவர்: Googlebot-படம் அனுமதிக்காது: /images/dogs.jpg

கூகுள் இமேஜஸ் ரோபோவிலிருந்து உங்கள் தளத்தில் உள்ள அனைத்து படங்களையும் மறைக்க

பயனர் முகவர்: Googlebot-படம் அனுமதிக்காது: /

ஒரு குறிப்பிட்ட வகையின் அனைத்து கோப்புகளும் ஸ்கேன் செய்யப்படுவதைத் தடுக்க(வி இந்த வழக்கில் GIF)

பயனர் முகவர்: Googlebot அனுமதிக்காது: /*.gif$

உங்கள் தளத்தில் குறிப்பிட்ட பக்கங்களைத் தடுக்க, ஆனால் அவற்றில் AdSense விளம்பரங்களைக் காட்டவும், Mediapartners-Google ஐத் தவிர அனைத்து ரோபோக்களுக்கும் அனுமதிக்காத விதியைப் பயன்படுத்தவும். இதன் விளைவாக, குறிப்பிட்ட பயனருக்குக் காண்பிக்க விளம்பரங்களைத் தேர்ந்தெடுப்பதற்காக, தேடல் முடிவுகளிலிருந்து அகற்றப்பட்ட பக்கங்களை இந்த ரோபோ அணுக முடியும்.

பயனர் முகவர்: * அனுமதி மறுக்கவும்: / பயனர் முகவர்: Mediapartners-Google அனுமதி: /
உடன் முடிவடையும் URL ஐக் குறிப்பிடுவதற்கு குறிப்பிட்ட துண்டு , $ குறியீட்டைப் பயன்படுத்தவும். எடுத்துக்காட்டாக, .xls இல் முடிவடையும் URLகளுக்கு, பின்வரும் குறியீட்டைப் பயன்படுத்தவும்: பயனர் முகவர்: Googlebot அனுமதிக்காது: /*.xls$

இந்த தகவல் பயனுள்ளதாக இருந்ததா?

இந்தக் கட்டுரையை எவ்வாறு மேம்படுத்தலாம்?

© 2024 ermake.ru -- PC பழுது பற்றி - தகவல் போர்டல்