Comment configurer un robot txt. Recommandations pour la configuration d'un fichier robots txt

maison / SE

Robots.txt est un fichier texte qui contient les paramètres d'indexation du site pour les robots des moteurs de recherche.

Comment configurer robots.txt

Créez un fichier nommé robots.txt dans un éditeur de texte et remplissez-le en suivant les instructions ci-dessous.

Vérifiez le fichier dans le service Yandex.Webmaster (analyse Robots.txt dans le menu).

Téléchargez le fichier dans le répertoire racine de votre site.

La directive User-agent

YandexMedia - Indexe les données multimédia.

S'il existe des directives pour un robot spécifique, les directives User-agent: Yahoo et User-agent: * ne sont pas utilisées.

User-agent : YandexBot # sera utilisé uniquement par le robot d'indexation principal Disallow : /*id= User-agent : Yandex # sera utilisé par tous les robots Yandex Disallow : /*sid= # sauf pour le robot d'indexation principal User-agent : * # ne sera pas utilisé par les robots Yandex Interdire : /cgi-bin

Directives Interdire et Autoriser

Pour interdire au robot d'accéder à votre site ou à certaines sections de celui-ci, utilisez la directive Disallow.

User-agent : YandexDisallow : / # bloque l'accès à l'ensemble du site User-agent : YandexDisallow : /cgi-bin # bloque l'accès aux pages # commençant par "/cgi-bin"

Selon la norme, vous devez insérer une ligne vide avant chaque directive User-agent.

Le caractère # désigne le commentaire. Tout ce qui suit ce caractère, jusqu'au premier saut de ligne, est ignoré.

Utilisez la directive Autoriser pour autoriser le robot à accéder à des parties spécifiques du site ou à l'intégralité du site.

User-agent : Yandex Allow : /cgi-bin Disallow : / # interdit de télécharger quoi que ce soit à l'exception des pages # commençant par "/cgi-bin"

note. Les sauts de ligne vides ne sont pas autorisés entre les directives User-agent , Disallow et Allow .

Combinaison de directives

Les directives Allow et Disallow du bloc User-agent correspondant sont triées en fonction de la longueur du préfixe d'URL (du plus court au plus long) et appliquées dans l'ordre. Si plusieurs directives correspondent à une page de site particulière, le robot sélectionne la dernière dans la liste triée. De cette façon, l'ordre des directives dans le fichier robots.txt n'affecte pas la manière dont elles sont utilisées par le robot. Exemples :

# Source robots.txt : User-agent : Yandex Allow : /catalog Disallow : / # Sorted robots.txt : User-agent : Yandex Disallow : / Allow : /catalog # autorise uniquement le téléchargement de pages # commençant par "/catalog" # Source robots.txt : User-agent : Yandex Allow : /Allow : /catalog/auto Disallow : /catalog # Trié robots.txt : User-agent : Yandex Allow : / Disallow : /catalog Allow : /catalog/auto # interdit le téléchargement de pages commençant par "/catalog", # mais permet de télécharger des pages commençant par "/catalog/auto".

Autoriser et interdire les directives sans paramètres

Si les directives ne contiennent pas de paramètres, le robot gère les données comme suit :

User-agent : Yandex Disallow : # identique à Allow : / User-agent : Yandex Allow : # n'est pas pris en compte par le robot

Utilisation des caractères spéciaux * et $

Vous pouvez utiliser les caractères spéciaux * et $ pour définir des expressions régulières lorsque vous spécifiez des chemins pour les directives Allow et Disallow. Le caractère * indique n'importe quelle séquence de caractères (ou aucune). Exemples:

User-agent : Yandex Disallow : /cgi-bin/*.aspx # interdit "/cgi-bin/example.aspx" # et "/cgi-bin/private/test.aspx" Disallow : /*private # interdit les deux " /privé", # et "/cgi-bin/privé"

Le caractère $

Par défaut, le caractère * est ajouté à la fin de chaque règle décrite dans le fichier robots.txt. Exemple:

User-agent : Yandex Disallow : /cgi-bin* # bloque l'accès aux pages # commençant par "/cgi-bin"Disallow : /cgi-bin # identique

Pour annuler * à la fin de la règle, utilisez le caractère $, par exemple :

User-agent : Yandex Disallow : /example$ # interdit "/example", # mais autorise "/example.html" User-agent : Yandex Disallow : /example # interdit à la fois "/example", # et "/example.html" " Le caractère $ n'interdit pas * à la fin, c'est-à-dire : User-agent : Yandex Disallow : /example$ # n'interdit que "/example" Disallow : /example*$ # identique à "Disallow : /example" # interdit à la fois /example.html et /example

La directive Sitemap

Si vous utilisez un fichier Sitemap pour décrire la structure de votre site, indiquez le chemin d'accès au fichier comme paramètre de la directive Sitemap (si vous avez plusieurs fichiers, indiquez tous les chemins). Exemple :

Agent utilisateur : Yandex Autoriser : /sitemap : https://example.com/site_structure/my_sitemaps1.xml sitemap : https://example.com/site_structure/my_sitemaps2.xml

La directive est intersectionnelle, ce qui signifie qu'elle est utilisée par le robot quel que soit son emplacement dans robots.txt .

Le robot mémorise le chemin d'accès à votre dossier, traite vos données et exploite les résultats lors de la prochaine visite sur votre site.

La directive Crawl-delay

Si le serveur est surchargé et qu'il n'est pas possible de traiter les requêtes de téléchargement, utilisez la directive Crawl-delay. Vous pouvez spécifier l'intervalle minimum (en secondes) pendant lequel le robot de recherche doit attendre après avoir téléchargé une page, avant de commencer à en télécharger une autre.

Pour maintenir la compatibilité avec les robots qui peuvent s'écarter de la norme lors du traitement de robots.txt , ajoutez la directive Crawl-delay au groupe qui commence par l'entrée User-Agent juste après les directives Disallow et Allow.

Le robot de recherche Yandex prend en charge les valeurs fractionnaires pour Crawl-Delay , telles que "0,5". Cela ne signifie pas que le robot de recherche accédera à votre site toutes les demi-secondes, mais cela peut accélérer le traitement du site.

User-agent : Yandex Crawl-delay : 2 # définit un délai d'attente de 2 secondes User-agent : * Disallow : /search Crawl-delay : 4.5 # définit un délai d'attente de 4,5 secondes

La directive Clean-param

Si les adresses des pages de votre site contiennent des paramètres dynamiques qui n'affectent pas le contenu (par exemple, des identifiants de sessions, d'utilisateurs, de référents, etc.), vous pouvez les décrire à l'aide de la directive Clean-param.

Le robot Yandex utilise ces informations pour éviter de recharger des informations en double. Cela améliore l'efficacité du robot et réduit la charge du serveur.

Par exemple, votre site contient les pages suivantes :

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Le paramètre ref est uniquement utilisé pour savoir à partir de quelle ressource la requête a été envoyée. Cela ne change pas le contenu de la page. Les trois URL afficheront la même page avec le livre book_id=123. Ensuite, si vous indiquez la directive de la manière suivante :

Agent utilisateur : Yandex Disallow : Clean-param : ref /some_dir/get_book.pl

le robot Yandex fera converger toutes les adresses de page en une seule :

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Si une page sans paramètres est disponible sur le site :

www.example.com/some_dir/get_book.pl?book_id=123

toutes les autres URL sont remplacées par celle-ci après que le robot l'a indexée. Les autres pages de votre site seront crawlées plus souvent, car il n'y aura pas besoin de mettre à jour les pages :

www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Syntaxe de la directive

Paramètre propre : p0[&p1&p2&..&pn]

Dans le premier champ, listez les paramètres qui doivent être ignorés, séparés par le caractère &. Dans le deuxième champ, indiquez le préfixe du chemin des pages auxquelles la règle doit s'appliquer.

Le préfixe peut contenir une expression régulière au format similaire à celui utilisé dans le fichier robots.txt, mais avec certaines restrictions : vous ne pouvez utiliser que les caractères A-Za-z0-9.-/*_ . Cependant, * est interprété de la même manière que dans robots.txt . Un * est toujours implicitement ajouté à la fin du préfixe. Par exemple:

Clean-param : s /forum/showthread.php

signifie que le paramètre s est ignoré pour toutes les URL commençant par /forum/showthread.php . Le deuxième champ est facultatif, et dans ce cas la règle s'appliquera à toutes les pages du site. Il est sensible à la casse. La longueur maximale de la règle est de 500 caractères. Par exemple:

Clean-param : abc /forum/showthread.php Clean-param : sid&sort /forum/*.php Clean-param : someTrash&otherTrash

Exemples supplémentaires

#pour les adresses comme :www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 agent : Yandex Disallow : Clean-param : s /forum/showthread.php #pour les adresses comme :www.example2.com/index .php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php?page= 1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt contiendra les éléments suivants : Agent utilisateur : Yandex Disallow : Clean-param : sid /index .php #s'il y a plusieurs de ces paramètres :www.example1.com/forum_old/showthread.php ?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 # robots.txt contiendra les éléments suivants : User-agent : Yandex Disallow : Clean-param : s&ref /forum */showthread.php #si le paramètre est utilisé dans plusieurs scripts :www.example1.com/forum/showthread.php?s =681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e71c4427317a117a&t=8243 # robots.txt contiendra les éléments suivants : User-agent : Yandex Disallow : Clean-param : s /forum/index.php Clean- paramètre : s /forum/showthread.php

Utiliser des caractères cyrilliques

L'utilisation de l'alphabet cyrillique n'est pas autorisée dans le fichier robots.txt et les en-têtes de serveur HTTP.

Pour les noms de domaine, utilisez Punycode . Pour les adresses de page, utilisez le même encodage que celui utilisé pour la structure actuelle du site.

Exemple de fichier robots.txt :

#Incorrect : User-agent : Yandex Disallow : /basket Sitemap : site.rf/sitemap.xml #Correct : User-agent : Yandex Disallow : /%D0%BA%D0%BE%D1%80%D0%B7%D0 %B8%D0%BD%D0%B0 Plan du site : http://xn--80aswg.xn--p1ai/sitemap.xml

Informations Complémentaires

Le robot Yandex ne prend en charge que les directives robots.txt répertoriées sur cette page. Les règles de traitement des fichiers décrites ci-dessus représentent une extension de la norme de base. D'autres robots peuvent interpréter le contenu du fichier robots.txt d'une manière différente.

Les résultats lors de l'utilisation du format robots.txt étendu peuvent différer des résultats qui utilisent la norme de base, notamment :

User-agent : Yandex Allow : / Disallow : /# sans extensions, tout était interdit car "Allow : /" était ignoré, # avec les extensions prises en charge, tout est autorisé User-agent : Yandex Disallow : /private*html # sans extensions, " /private*html" était interdit, # avec les extensions prises en charge, "/private*html", # "/private/test.html", "/private/html/test.aspx", etc. sont également interdits agent : Yandex Disallow : /private$ # sans les extensions prises en charge, "/private$" et "/private$test", etc. étaient interdits, # avec les extensions prises en charge, seul "/private" est interdit User-agent : * Disallow : / User-agent: Yandex Allow: / # sans extensions prises en charge, en raison du saut de ligne manquant, # "User-agent: Yandex" serait ignoré # le résultat serait "Disallow: /", mais le robot Yandex # analyse chaînes basées sur la sous-chaîne "User-agent :". # Dans ce cas, le résultat pour le robot Yandex est "Autoriser : /" Agent utilisateur : * Interdire : / # commentaire1... # commentaire2... # commentaire3... Agent utilisateur : Yandex Autoriser : / # identique comme dans l'exemple précédent (voir ci-dessus)

Exemples utilisant le format robots.txt étendu :

Agent utilisateur : Yandex Autoriser : /archive Interdire : / # autorise tout ce qui contient "/archive" ; le reste est interdit. .php" sur siteDisallow : /*/private/ # interdit tous les sous-chemins contenant # "/private/", mais l'autorisation ci-dessus annule # une partie de l'interdiction Disallow : /*/old/*.zip$ # interdit tous les "*. zip" contenant # "/old/" dans le chemin User-agent : Yandex Disallow : /add.php?*user= # interdit tout "add.php?" scripts avec l'option "user"

Lors de la création du fichier robots.txt, vous devez garder à l'esprit que le robot impose une limite raisonnable à sa taille. Si la taille du fichier dépasse 32 Ko, le robot suppose qu'il autorise tout, ce qui signifie qu'il est interprété de la même manière que.

Configurer correctement le fichier robots.txt éliminera problèmes possibles découlant de l'indexation.

En particulier, le propriétaire du site a la possibilité de limiter l'indexation des sections de service et personnelles de la ressource. Comment créer un fichier et le configurer pour différents moteurs de recherche, ainsi que pour les CMS populaires - nous en parlerons dans cette publication.

A quoi sert le fichier robots.txt ?

Comme vous pouvez le deviner, ce fichier contient des instructions destinées aux robots de recherche. Il doit être placé dans le répertoire racine, grâce auquel les bots commenceront à indexer la page en lisant les conditions énoncées dans robots.txt.

Ainsi, le fichier indique aux robots de recherche quels répertoires de sites sont autorisés à être indexés et lesquels ne sont pas soumis à ce processus.

Étant donné que la présence d'un fichier n'affecte pas le processus de classement, de nombreux sites ne contiennent pas de robots.txt. Mais ce n'est pas vraiment La bonne façon. Examinons les avantages que robots.txt apporte à une ressource.

Vous pouvez interdire l'indexation de la ressource en tout ou en partie, limiter le cercle des robots de recherche qui auront le droit d'indexer. Vous pouvez complètement protéger la ressource de ce processus (par exemple, lors de la création ou de la reconstruction d'un site).

De plus, le fichier robots restreint l'accès à la ressource pour toutes sortes de robots de spam, dont le but est de scanner le site pour adresses mail, qui sera ensuite utilisé pour envoyer du spam. Nous ne nous attarderons pas sur ce que cela peut entraîner - et c'est donc clair.

À partir de l'indexation, vous pouvez masquer des sections du site qui ne sont pas destinées aux moteurs de recherche, mais à un certain nombre d'utilisateurs, des sections contenant des informations privées et autres informations similaires.

Comment créer le fichier robots.txt correct

Les robots corrects sont faciles à écrire à la main, sans recourir à divers constructeurs. Le processus revient à écrire les directives nécessaires dans un fichier de bloc-notes régulier, qui doit ensuite être enregistré sous le nom de "robots" et téléchargé dans le répertoire racine de votre propre ressource. Un site a besoin d'un tel fichier. Vous pouvez y écrire des instructions pour les robots de recherche de tous les moteurs de recherche nécessaires. Autrement dit, vous n'avez pas besoin de créer un fichier séparé pour chaque moteur de recherche.

Que faut-il écrire dans le dossier ? L'utilisation de deux directives est obligatoire : User-agent et Disallow. Le premier détermine à quel bot ce message est adressé, le second indique quelle page ou répertoire de la ressource est interdit d'indexation.

Pour définir les mêmes règles pour tous les bots, vous pouvez utiliser le symbole astérisque au lieu du nom dans la directive User-agent.
Le fichier robots.txt dans ce cas ressemblera à ceci :

Soit dit en passant, les développeurs de Google ont rappelé à plusieurs reprises aux webmasters que la taille du fichier robots.txt ne doit pas dépasser 500 Ko. Cela conduira certainement à des erreurs d'indexation. Si vous créez un fichier manuellement, "atteindre" cette taille, bien sûr, n'est pas réaliste. Mais voici quelques CMS qui génèrent automatiquement le contenu de robots.txt, peuvent le « pondérer » significativement.

Création de fichiers facile pour n'importe quel moteur de recherche

Si vous avez peur de faire des erreurs lors de l'écriture d'un fichier (ou tout simplement trop paresseux pour le faire), vous pouvez confier la création des directives nécessaires au constructeur. C'est aussi simple que deux fois deux, mais nous donnerons quand même une petite explication sur la façon de travailler avec.

Le premier champ contient l'adresse de la ressource. Ce n'est qu'après cela que l'utilisateur aura la possibilité de sélectionner le moteur de recherche pour lequel ces règles sont définies (vous pouvez sélectionner plusieurs moteurs de recherche à la suite). Ensuite, vous devez spécifier les dossiers et les fichiers dont l'accès sera refusé, spécifier l'adresse du miroir du site, spécifier l'emplacement de la carte des ressources.

Au fur et à mesure que vous remplissez les champs du champ inférieur, les répertoires nécessaires seront écrits. Il suffit finalement de les copier dans un fichier txt et de lui donner le nom de robots.

Comment vérifier l'efficacité du fichier robots.txt

Pour analyser l'effet d'un fichier dans Yandex, accédez à la page correspondante dans la section Yandex.Webmaster. Dans la boîte de dialogue, entrez le nom du site et cliquez sur le bouton "télécharger".

Le système analysera le fichier robots.txt et indiquera si le robot de recherche contournera les pages interdites d'indexation. En cas de problème, les directives peuvent être modifiées et vérifiées directement dans la boîte de dialogue, puis copiez le texte modifié et collez-le dans votre fichier robots.txt dans le répertoire racine.

Un service similaire est fourni par le service "Webmaster Tools" du moteur de recherche Google.

Création de robots.txt pour WordPress, Joomla et Ucoz

Divers CMS, qui ont acquis une grande popularité dans nos espaces ouverts, offrent aux utilisateurs leurs propres versions des fichiers robots.txt (ou n'en ont pas du tout). Souvent, ces fichiers sont soit trop universels et ne tiennent pas compte des caractéristiques de la ressource de l'utilisateur, soit présentent un certain nombre d'inconvénients importants.

Vous pouvez essayer de les modifier manuellement (ce qui n'est pas très efficace avec un manque de connaissances), ou vous pouvez utiliser l'expérience de collègues plus professionnels. Comme on dit, tout a déjà été fait avant nous. Par exemple, robots.txt pour WordPress pourrait ressembler à ceci :

La ligne www.site.ru, bien sûr, doit être remplacée par l'adresse du site de l'utilisateur.

Interdiction d'indexation pour les bots suivants :

Pour tous
Yandex
Google
Mail.ru
Rabmler
bing
Yahoo

Domaine principal du site :

Délai d'attente entre les transitions de page robot :
1 seconde 5 secondes 10 secondes 60 secondes

Soit sitemap, sitemap.xml :

Robots.txt prêt :

Enregistrez les données dans le fichier "robots.txt" et copiez-le dans le dossier racine du site.

A quoi sert l'outil "générateur robots.txt" ?

Le service du site vous présente l'outil "générateur robots.txt", avec lequel vous pouvez créer un fichier robots.txt en ligne en quelques secondes, ainsi que définir une interdiction d'indexation des pages du site par certains moteurs de recherche.

Qu'est-ce que robots.txt

Robots.txt est un fichier qui se trouve à la racine du site et contient des instructions pour les robots de recherche. Lorsqu'ils accèdent à une ressource, les robots commencent à se familiariser avec celle-ci à partir du fichier robots.txt - une sorte de "mode d'emploi". L'éditeur précise fichier donné comment le robot doit interagir avec la ressource. Par exemple, il peut contenir une interdiction d'indexer certaines pages ou une recommandation de respecter l'intervalle de temps entre l'enregistrement de documents depuis un serveur Web.

Caractéristiques de l'outil

Le webmaster peut interdire l'indexation par les moteurs de recherche Yandex, Google, Mail.ru, Rambler, Bing ou Yahoo!, ainsi que définir un délai d'attente entre les transitions du robot de recherche à travers les pages de ressources et interdire l'indexation des pages sélectionnées du site. . De plus, dans une ligne spéciale, vous pouvez indiquer aux robots de recherche le chemin vers le sitemap (sitemap.xml).

Après avoir rempli tous les champs de l'outil et cliqué sur le bouton "Créer", le système générera automatiquement un fichier pour les robots de recherche, que vous devrez placer dans la zone racine de votre site.

Veuillez noter que le fichier robots.txt ne peut pas être utilisé pour masquer la page des résultats de recherche, car d'autres ressources peuvent y être liées et les robots de recherche l'indexeront d'une manière ou d'une autre. Nous vous rappelons que pour bloquer une page dans les résultats de recherche, une balise spéciale "noindex" est utilisée ou un mot de passe est défini.

Il convient également de noter qu'avec l'outil générateur de robots.txt, vous créerez un fichier à titre consultatif uniquement. Bien sûr, les bots "écoutent" les instructions que leur laissent les webmasters dans le fichier robots.txt, mais les ignorent parfois. Pourquoi cela arrive-t-il? Parce que chaque robot de recherche a ses propres paramètres, selon lesquels il interprète les informations reçues du fichier robots.txt.

Le fichier sitemap.xml et le fichier robots.txt correct pour le site sont deux documents obligatoires qui contribuent à l'indexation rapide et complète de toutes les pages nécessaires de la ressource Web par les robots de recherche. Une bonne indexation du site dans Yandex et Google est la clé d'une promotion de blog réussie dans les moteurs de recherche.

J'ai déjà écrit comment créer un sitemap au format XML et pourquoi il est nécessaire. Et maintenant, parlons de la façon de créer le bon fichier robots.txt pour un site WordPress et pourquoi il est nécessaire. Des informations détailléesà propos de ce fichier peut être obtenu auprès de Yandex et Google eux-mêmes, respectivement, et. Je vais aborder l'essence même et aborder les principaux paramètres robots.txt pour WordPress en utilisant mon fichier comme exemple.

Pourquoi avez-vous besoin d'un fichier robots.txt pour un site ?

La norme robots.txt a été introduite en janvier 1994. Lors de l'exploration d'une ressource Web, les robots de recherche recherchent d'abord fichier texte robots.txt situé dans le dossier racine d'un site Web ou d'un blog. Avec son aide, nous pouvons spécifier certaines règles pour les robots des différents moteurs de recherche, selon lesquelles ils indexeront le site.

Un réglage correct de robots.txt permettra :

exclure les doublons et diverses pages inutiles de l'index ;
interdire l'indexation des pages, fichiers et dossiers que nous voulons cacher ;
refusent généralement l'indexation à certains robots de recherche (par exemple, Yahoo, pour masquer les informations sur les liens entrants des concurrents) ;
indiquer le miroir principal du site (avec www ou sans www) ;
spécifiez le chemin d'accès au sitemap sitemap.xml.

Comment créer le fichier robots.txt correct pour un site Web

À cette fin, il existe des générateurs et des plugins spéciaux, mais il est plus correct de le faire manuellement.

Il vous suffit de créer un fichier texte brut appelé robots.txt à l'aide de n'importe quel éditeur de texte (par exemple, Bloc-notes ou Bloc-notes ++) et de le télécharger sur l'hébergement dans le dossier racine du blog. Dans ce fichier, vous devez écrire certaines directives, c'est-à-dire règles d'indexation pour les robots de Yandex, Google, etc.

Si vous êtes trop paresseux pour vous en soucier, je donnerai ci-dessous un exemple, de mon point de vue, du fichier robots.txt correct pour WordPress de mon blog. Vous pouvez l'utiliser en remplaçant le nom de domaine à trois endroits.

Règles et directives de création de Robots.txt

Pour réussir optimisation du moteur de recherche blog, vous devez connaître quelques règles pour créer un fichier robots.txt :

Absence ou fichier vide robots.txt signifie que les moteurs de recherche sont autorisés à indexer tout le contenu de la ressource Web.
robots.txt devrait s'ouvrir sur votre site.ru/robots.txt , donnant au robot un code de réponse 200 OK et pas plus de 32 Ko en taille. Un fichier qui ne peut pas être ouvert (par exemple, en raison d'une erreur 404) ou qui est plus volumineux sera considéré comme permissif.
Le nombre de directives dans le fichier ne doit pas dépasser 1024. La longueur d'une ligne ne doit pas dépasser 1024 caractères.
Un fichier robots.txt valide peut contenir plusieurs instructions, chacune devant commencer par une directive User-agent et contenir au moins une directive Disallow. Habituellement, ils écrivent des instructions dans robots.txt pour Google et tous les autres robots et séparément pour Yandex.

Principales directives robots.txt :

User-agent - indique à quel crawler l'instruction est adressée.

Le symbole "*" signifie que cela s'applique à tous les robots, par exemple :

Agent utilisateur: *

Si nous devons créer une règle dans robots.txt pour Yandex, nous écrivons :

Agent utilisateur : Yandex

Si une directive est spécifiée pour un robot spécifique, la directive User-agent: * est ignorée par celui-ci.

Interdire et Autoriser - respectivement, interdire et autoriser les robots à indexer les pages spécifiées. Toutes les adresses doivent être spécifiées à partir de la racine du site, c'est-à-dire à partir de la troisième barre oblique. Par exemple:

Interdiction d'indexation de l'intégralité du site pour tous les robots :
Agent utilisateur: *
interdire : /
Il est interdit à Yandex d'indexer toutes les pages commençant par /wp-admin :
Agent utilisateur : Yandex
Interdire : /wp-admin
Une directive Disallow vide permet à tout d'être indexé et est similaire à Allow. Par exemple, j'autorise Yandex à indexer l'intégralité du site :
Agent utilisateur : Yandex
Refuser:
Et inversement, j'interdis que toutes les pages soient indexées par tous les robots de recherche :
Agent utilisateur: *
permettre:
Les directives Allow et Disallow du même bloc User-agent sont triées par longueur de préfixe d'URL et exécutées de manière séquentielle. Si plusieurs directives conviennent pour une page du site, alors la dernière de la liste est exécutée. Or l'ordre de leur écriture n'a pas d'importance pour l'utilisation des directives par le robot. Si les directives ont des préfixes de même longueur, alors Allow est exécuté en premier. Ces règles sont entrées en vigueur le 8 mars 2012. Par exemple, il permet d'indexer uniquement les pages commençant par /wp-includes :
Agent utilisateur : Yandex
interdire : /
Autoriser : /wp-includes

Plan du site - Spécifie l'URL du plan du site XML. Il peut y avoir plusieurs directives Sitemap sur le même site, qui peuvent être imbriquées. Toutes les adresses de fichier Sitemap doivent être spécifiées dans robots.txt pour accélérer l'indexation du site :

Plan du site : http://site/sitemap.xml.gz
Plan du site : http://site/sitemap.xml

Hôte - indique au robot miroir quel miroir du site est considéré comme le principal.

Si le site est disponible à plusieurs adresses (par exemple, avec www et sans www), cela crée des pages en double complètes pour lesquelles vous pouvez passer sous le filtre. De plus, dans ce cas, la page principale ne pourra pas être indexée, mais la principale, au contraire, sera exclue de l'index moteur de recherche. Pour éviter cela, la directive Host est utilisée, qui est destinée dans le fichier robots.txt uniquement pour Yandex et ne peut être qu'une seule. Il est écrit après Disallow et Allow et ressemble à ceci :

hébergeur : site web

Crawl-delay - définit le délai entre les téléchargements de pages en secondes. Il est utilisé en cas de forte charge et si le serveur n'a pas le temps de traiter les requêtes. Sur les sites jeunes, mieux vaut ne pas utiliser la directive Crawl-delay. Elle écrit ainsi :

Agent utilisateur : Yandex
Délai d'exploration : 4

Clean-param - pris en charge uniquement par Yandex et utilisé pour éliminer les pages en double avec des variables, en les collant en une seule. Ainsi, le robot Yandex ne téléchargera pas plusieurs fois des pages similaires, par exemple celles associées à des liens de parrainage. Je n'ai pas encore utilisé cette directive, mais dans l'aide robots.txt pour Yandex, sur le lien au début de l'article, vous pouvez lire cette directive en détail.

Les caractères spéciaux * et $ sont utilisés dans robots.txt pour spécifier les chemins des directives Disallow et Allow :

Le caractère spécial « * » désigne toute séquence de caractères. Par exemple, Disallow: /*?* signifie une interdiction de toutes les pages où "?" apparaît dans l'adresse, quels que soient les caractères qui précèdent et suivent ce caractère. Par défaut, le caractère spécial "*" est ajouté à la fin de chaque règle, même s'il n'est pas écrit spécifiquement.
Le caractère « $ » annule le « * » à la fin de la règle et signifie une correspondance stricte. Par exemple, la directive Disallow: /*?$ interdira l'indexation des pages se terminant par un "?".

Exemple de robots.txt WordPress

Voici un exemple de mon fichier robots.txt pour un blog WordPress :

Agent utilisateur : * Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : / trackback Interdire : */trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?s= Agent utilisateur : Yandex Interdire : /cgi-bin Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Interdire : /trackback Interdire : */ trackback Interdire : */*/trackback Interdire : /feed/ Interdire : */*/feed/*/ Interdire : */feed Interdire : /*?* Interdire : /?.ru/sitemap.xml..xml

Afin de ne pas vous tromper avec la création du bon robots.txt pour WordPress, vous pouvez utiliser ce fichier. Il n'y a aucun problème d'indexation. J'ai un script de protection contre la copie, il sera donc plus pratique de télécharger le robots.txt fini et de le télécharger sur votre hébergement. N'oubliez pas de remplacer le nom de mon site par le vôtre dans les directives Host et Sitemap.

Ajouts utiles pour configurer correctement le fichier robots.txt pour WordPress

Si des commentaires arborescents sont installés sur votre blog WordPress, ils créent des pages en double comme ?replytocom= . Dans robots.txt, ces pages sont fermées avec la directive Disallow: /*?*. Mais ce n'est pas une issue et il vaut mieux supprimer les interdictions, mais traiter la réponse à com d'une manière différente. Quoi, .

Ainsi, le fichier robots.txt actuel de juillet 2014 ressemble à ceci :

Agent utilisateur : * Interdire : /wp-includes Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Agent utilisateur : Yandex Interdire : /wp -includes Interdire : /wp-feed Interdire : /wp-content/plugins Interdire : /wp-content/cache Interdire : /wp-content/themes Hôte : site.ru Agent utilisateur : Googlebot-Image Autoriser : /wp-content /uploads/ User-agent : YandexImages Autoriser : /wp-content/uploads/ Plan du site : http://site.ru/sitemap.xml

Il contient en outre des règles pour les robots d'indexation d'images.

Agent utilisateur : Mediapartners-Google
Refuser:

Si vous envisagez de promouvoir des pages de catégories ou de balises, vous devez les ouvrir aux robots. Par exemple, sur un site de blog, les rubriques ne sont pas fermées à l'indexation, puisqu'elles ne publient que de petites annonces d'articles, ce qui est assez insignifiant en termes de duplication de contenu. Et si vous utilisez la sortie des citations dans le flux du blog, qui sont remplies d'annonces uniques, il n'y aura aucune duplication.

Si vous n'utilisez pas le plugin ci-dessus, alors vous pouvez spécifier dans le fichier robots.txt l'interdiction d'indexer les balises, les catégories et les archives. Par exemple, en ajoutant ces lignes :

Interdire : /auteur/
Interdire : /tag
Interdire : /category/*/*
Interdire : /20*

N'oubliez pas de vérifier le fichier robots.txt dans le panneau Yandex.Webmaster, puis de le télécharger à nouveau sur l'hébergement.

Si vous avez des ajouts pour la configuration de robots.txt, écrivez à ce sujet dans les commentaires. Et maintenant, regardez une vidéo sur ce que c'est et comment créer le fichier robots.txt correct pour le site, comment désactiver l'indexation dans le fichier robots.txt et corriger les erreurs.

Le fichier robots.txt se trouve dans le répertoire racine de votre site. Par exemple, sur www.example.com, l'adresse du fichier robots.txt serait www.example.com/robots.txt. Le fichier robots.txt est un fichier texte brut conforme à la norme Robot Exceptions et inclut une ou plusieurs règles, chacune d'entre elles refusant ou permettant à un certain robot d'accéder à un chemin spécifique sur le site.

Voici un exemple fichier simple robots.txt avec deux règles. Ci-dessous les explications.

# Groupe 1 User-agent : Googlebot Disallow : /nogooglebot/ # Groupe 2 User-agent : * Autoriser : / Sitemap : http://www.example.com/sitemap.xml

Explications

Un agent utilisateur nommé Googlebot ne doit pas explorer le répertoire http://example.com/nogooglebot/ et ses sous-répertoires.
Tous les autres agents utilisateurs ont accès à l'ensemble du site (peut être omis, le résultat est le même, puisque l'accès complet est accordé par défaut).
Fichier de plan du site ce site se trouve à l'adresse http://www.example.com/sitemap.xml.

Voici quelques conseils pour travailler avec les fichiers robots.txt. Nous vous recommandons d'étudier la syntaxe complète de ces fichiers, car les règles de syntaxe utilisées pour les créer ne sont pas évidentes et vous devez les comprendre.

Format et mise en page

Vous pouvez créer un fichier robots.txt dans presque tous les éditeurs de texte prenant en charge le codage UTF-8. Ne pas utiliser traitement de texte, car ils enregistrent souvent les fichiers dans un format propriétaire et y ajoutent des caractères illégaux, tels que des guillemets bouclés, qui ne sont pas reconnus par les robots de recherche.

Lors de la création et du test des fichiers robots.txt, utilisez l'outil de test. Il permet d'analyser la syntaxe d'un fichier et de savoir comment il fonctionnera sur votre site.

Format de fichier et règles d'emplacement

Le fichier doit être nommé robots.txt.
Il ne devrait y avoir qu'un seul fichier de ce type sur le site.
Le fichier robots.txt doit être placé dans répertoire racine placer. Par exemple, pour contrôler l'exploration de toutes les pages sur http://www.example.com/ , placez le fichier robots.txt sur http://www.example.com/robots.txt . Il ne doit pas être dans un sous-répertoire(par exemple, à http://example.com/pages/robots.txt). Si vous rencontrez des difficultés pour accéder au répertoire racine, veuillez contacter votre fournisseur d'hébergement. Si vous n'avez pas accès au répertoire racine du site, utilisez méthode alternative blocage, comme les balises META.
Le fichier robots.txt peut être ajouté aux adresses avec sous-domaines(par exemple http:// site Internet.example.com/robots.txt) ou des ports non standard (par exemple, http://example.com : 8181 /robots.txt).
Tout texte après le symbole # est considéré comme un commentaire.

Syntaxe

Le fichier robots.txt doit être un fichier texte encodé en UTF-8 (qui inclut des codes de caractères ASCII). Les autres jeux de caractères ne peuvent pas être utilisés.
Le fichier robots.txt se compose de groupes.
Chaque groupe peut contenir plusieurs règles, un par ligne. Ces règles sont aussi appelées directives.
Le groupe comprend les informations suivantes :
- À qui agent utilisateur les directives de groupe s'appliquent.
- avoir accès.
- Quels répertoires ou fichiers cet agent possède-t-il Pas d'accès.
Les instructions de groupe sont lues de haut en bas. Le robot suivra les règles d'un seul groupe avec l'agent utilisateur le plus proche.
La valeur par défaut est supposée que si l'accès à une page ou à un répertoire n'est pas bloqué par la règle Disallow:, alors l'agent utilisateur peut les traiter.
Règles sensible aux majuscules et minuscules. Par exemple, la règle Disallow: /file.asp s'applique à l'URL http://www.example.com/file.asp , mais pas à http://www.example.com/File.asp .

Directives utilisées dans les fichiers robots.txt

agent utilisateur: Directive obligatoire, il peut y en avoir plusieurs dans un groupe. Détermine quel moteur de recherche robot les règles doivent s'appliquer. Chaque groupe commence par cette ligne. La plupart des agents utilisateurs liés aux Googlebots se trouvent dans une liste dédiée et dans la base de données des robots Internet. Le caractère générique * est pris en charge pour indiquer un préfixe, un suffixe de chemin ou le chemin complet. Utilisez le signe *, comme indiqué dans l'exemple ci-dessous, pour bloquer l'accès à tous les robots d'exploration ( sauf pour les robots AdsBot qui doit être spécifié séparément). Nous vous recommandons de vous familiariser avec la liste des robots Google. Exemples:# Exemple 1 : Désactiver Googlebot uniquement User-agent : Googlebot Disallow : / # Exemple 2 : Désactiver Googlebot et AdsBot User-agent : Googlebot User-agent : AdsBot-Google Disallow : / # Exemple 3 : Désactiver tous les bots, sauf AdsBot User- agent : * Interdire : /
Refuser: . Pointe vers un répertoire ou une page relative au domaine racine qui ne peut pas être exploré par l'agent utilisateur défini ci-dessus. S'il s'agit d'une page, le chemin d'accès complet à celle-ci doit être spécifié, comme dans la barre d'adresse du navigateur. S'il s'agit d'un répertoire, le chemin doit se terminer par une barre oblique (/). Le caractère générique * est pris en charge pour indiquer un préfixe, un suffixe de chemin ou le chemin complet.
permettre: Au moins une directive Interdire : ou Autoriser : doit figurer dans chaque groupe. Pointe vers un répertoire ou une page, relatif au domaine racine, qui peut être analysé par l'agent utilisateur défini ci-dessus. Utilisé pour remplacer la directive Disallow et autoriser l'analyse d'un sous-répertoire ou d'une page dans un répertoire fermé pour analyse. S'il s'agit d'une page, le chemin d'accès complet à celle-ci doit être spécifié, comme dans la barre d'adresse du navigateur. S'il s'agit d'un répertoire, le chemin doit se terminer par une barre oblique (/). Le caractère générique * est pris en charge pour indiquer un préfixe, un suffixe de chemin ou le chemin complet.
plan du site : Une directive facultative, il peut y en avoir plusieurs ou aucune dans le fichier. Pointe vers l'emplacement du plan du site utilisé par ce site. L'URL doit être complète. Google ne traite ni ne valide les variantes d'URL avec les préfixes http et https, ou avec ou sans l'élément www. Plans de site indiquer à Google quel contenu besoin de scanné et comment le distinguer du contenu qui Peut ou c'est interdit analyse. Exemple: Plan du site : https://example.com/sitemap.xml Plan du site : http://www.example.com/sitemap.xml

Les autres règles sont ignorées.

Un autre exemple

Le fichier robots.txt se compose de groupes. Chacun d'eux commence par une chaîne User-agent qui spécifie le robot qui doit suivre les règles. Voici un exemple de fichier avec deux groupes et avec des commentaires explicatifs pour les deux.

# Empêchez Googlebot d'accéder à example.com/directory1/... et example.com/directory2/... # mais autorisez l'accès à directory2/subdirectory1/... # L'accès à tous les autres répertoires est autorisé par défaut. Agent utilisateur : googlebot Interdire : /répertoire1/ Interdire : /répertoire2/ Autoriser : /répertoire2/sous-répertoire1/ # Empêcher les autres moteurs de recherche d'accéder à l'intégralité du site. User-agent : anothercrawler Disallow : /

Syntaxe complète du fichier robots.txt

La syntaxe complète est décrite dans cet article. Nous vous recommandons de vous familiariser avec celui-ci, car il existe des nuances importantes dans la syntaxe du fichier robots.txt.

Règles utiles

Voici quelques règles courantes pour le fichier robots.txt :

règle	Exemple
Empêcher l'exploration de l'ensemble du site. Veuillez noter que dans certains cas, les URL des sites peuvent être indexées même si elles n'ont pas été explorées. Veuillez noter que cette règle ne s'applique pas aux AdsBots, qui doivent être répertoriés séparément.	Agent utilisateur : * Interdire : /
Pour désactiver l'analyse d'un répertoire et de tout son contenu, placez une barre oblique après le nom du répertoire. N'utilisez pas le fichier robots.txt pour la protection information confidentielle! À ces fins, l'authentification doit être utilisée. Les URL bloquées par le fichier robots.txt peuvent être indexées, et le contenu du fichier robots.txt peut être visualisé par n'importe quel utilisateur, et ainsi découvrir l'emplacement des fichiers contenant des informations confidentielles.	Agent utilisateur : * Interdire : /calendar/ Interdire : /junk/
Pour autoriser l'exploration pour un seul robot d'exploration	Agent utilisateur : Googlebot-news Autoriser : / Agent utilisateur : * Interdire : /
Pour autoriser l'exploration pour tous les robots sauf un	Agent utilisateur : Unnecessarybot Disallow : / Agent utilisateur : * Autoriser : /
Pour désactiver la numérisation d'une page individuelle, spécifiez cette page après la barre oblique.	Agent utilisateur : * Interdire : /fichier_privé.html
Pour masquer une image spécifique du bot Google Images	Agent utilisateur : Googlebot-Image Disallow : /images/dogs.jpg
Pour masquer toutes les images de votre site au bot Google Images	Agent utilisateur : Googlebot-Image Disallow : /
Pour empêcher l'analyse de tous les fichiers d'un certain type(V ce cas gif)	Agent utilisateur : Googlebot Disallow : /*.gif$
Pour bloquer des pages spécifiques de votre site, mais continuer à y diffuser des annonces AdSense, utilisez la règle Interdire pour tous les robots, à l'exception de Mediapartners-Google. En conséquence, ce robot pourra accéder aux pages supprimées des résultats de recherche afin de sélectionner des annonces à diffuser auprès d'un utilisateur particulier.	User-agent : * Disallow : / User-agent : Mediapartners-Google Allow : /
Pour spécifier une URL qui se termine par certain fragment , utilisez le symbole $. Par exemple, pour les URL se terminant par .xls , utilisez le code suivant :	Agent utilisateur : Googlebot Disallow : /*.xls$

Est-ce que cette information a été utile?

Comment cet article peut-il être amélioré ?