fbpx
robots.txt

Qu’est-ce que le fichier robots.txt et comment s’en servir

Robots.txt est l’un des fichiers les plus simples d’un site web, mais c’est aussi l’un des plus faciles à gâter. Un seul caractère mal placé peut nuire à votre référencement et empêcher les moteurs de recherche d’accéder à des contenus importants sur votre site. 

C’est pourquoi les erreurs de configuration de robots.txt sont extrêmement fréquentes, même chez les professionnels expérimentés du référencement. 

Qu’est-ce qu’un fichier robots.txt ? 

Un fichier robots.txt indique aux moteurs de recherche où ils peuvent et ne peuvent pas aller sur votre site. 

Il énumère principalement tous les contenus que vous souhaitez verrouiller pour les moteurs de recherche comme Google. Vous pouvez également indiquer à certains moteurs de recherche (pas Google) comment ils peuvent explorer les contenus autorisés. 

À quoi ressemble un fichier robots.txt ? 

Voici le format de base d’un fichier robots.txt : 

Sitemap: [Adresse url du sitemap]  

User-agent: [Identifiant d’un bot]  

[directive 1]  

[directive 2]  

[directive ...]  

 

User-agent: [Un autre identifiant d’un bot]  

[directive 1]  

[directive 2]  

[directive ...]

Si vous n’avez jamais vu un de ces fichiers auparavant, cela peut sembler complexe. Cependant, la syntaxe est assez simple. En bref, vous attribuez des règles aux robots en indiquant leur user-agent suivi de directives. 

Examinons ces deux éléments plus en détail. 

Les User-agents 

Chaque moteur de recherche s’identifie avec un user-agent différent. Vous pouvez définir des instructions personnalisées pour chacun d’entre eux dans votre fichier robots.txt. Il existe des centaines d’user-agents, mais en voici quelques-uns qui sont utiles pour le référencement : 

  • Google : Googlebot 
  • Google Images : Googlebot-Image 
  • Bing : Bingbot 
  • Yahoo : Slurp 
  • Baidu : Baiduspider 
  • DuckDuckGo : DuckDuckBot 

Vous pouvez également utiliser le joker étoile (*) pour attribuer des directives à tous les user-agents. 

Par exemple, disons que vous voulez empêcher tous les robots, sauf Googlebot, d’explorer votre site. Voici comment vous le feriez : 

User-agent: * 

Disallow: / 

  

User-agent: Googlebot 

Allow: / 

Sachez que votre fichier robots.txt peut inclure des directives pour autant d’user agents que vous le souhaitez. Cela dit, chaque fois que vous déclarez un nouveau user-agent, il fait table rase. En d’autres termes, si vous ajoutez des directives pour plusieurs user-agents, les directives déclarées pour le premier user-agent ne s’appliquent pas au deuxième, ou troisième, ou quatrième, et ainsi de suite. 

L’exception à cette règle est lorsque vous déclarez le même user-agent plus d’une fois. Dans ce cas, toutes les directives pertinentes sont combinées et suivies. 

Les directives 

Les directives sont des règles que vous voulez que les user-agents déclarés suivent. 

Directives prises en charge 

Voici les directives que Google supporte actuellement, ainsi que leurs utilisations. 

Interdire 

Utilisez cette directive pour indiquer aux moteurs de recherche de ne pas accéder aux fichiers et aux pages qui relèvent d’un chemin d’accès spécifique. Par exemple, si vous souhaitez empêcher tous les moteurs de recherche d’accéder à votre blog et à tous ses articles, votre fichier robots.txt pourrait ressembler à ceci : 

User-agent: *  

Disallow: /blog 
Autoriser 

Utilisez cette directive pour permettre aux moteurs de recherche d’explorer un sous-répertoire ou une page, même dans un répertoire interdit par ailleurs. Par exemple, si vous voulez empêcher les moteurs de recherche d’accéder à tous les articles de votre blog sauf un, votre fichier robots.txt pourrait ressembler à ceci : 

User-agent: *  

Disallow: /blog  

Allow: /blog/article-autorise 

Dans cet exemple, les moteurs de recherche peuvent accéder à /blog/article-autorise. Mais ils ne peuvent pas  accéder à : 

/blog/autre-article 

/blog/encore-autre-article 

/blog/telecharges-moi.pdf 

Google et Bing supportent tous ces deux directive. 

Sitemap 

Utilisez cette directive pour préciser aux moteurs de recherche l’emplacement de votre (vos) plan(s) de site. Si vous ne connaissez pas les plans de site, ils comprennent généralement les pages que vous voulez que les moteurs de recherche explorent et indexent. 

Voici un exemple de fichier robots.txt utilisant la directive sitemap : 

Sitemap: https://www.domain.com/sitemap.xml  

User-agent: *  

Disallow: /blog/  

Allow: /blog/un-article/ 

Quelle est l’importance d’inclure votre (vos) plan(s) de site dans votre fichier robots.txt ? Si vous avez déjà soumis votre site via la search console de Google, cela est quelque peu redondant pour Google. Cependant, elle indique aux autres moteurs de recherche comme Bing où trouver votre plan de site, ce qui reste une bonne pratique. 

Notez que vous n’avez pas besoin de répéter la directive sitemap plusieurs fois pour chaque user-agent. Elle ne s’applique pas à un seul agent. Il est donc préférable d’inclure les directives sitemap au début ou à la fin de votre fichier robots.txt. Par exemple : 

Sitemap: https://www.domain.com/sitemap.xml  

User-agent: Googlebot  

Disallow: /blog/  

Allow: /blog/post-title/  

 

User-agent: Bingbot  

Disallow: /services/ 

Google supporte la directive sur les sitemaps, tout comme Ask, Bing et Yahoo 

Directives non supportées 

Voici les directives qui ne sont plus soutenues par Google – dont certaines ne l’ont jamais été techniquement. 

Crawl-delay 

Auparavant, vous pouviez utiliser cette directive pour spécifier un délai de crawl en secondes. Par exemple, si vous vouliez que Googlebot attende 5 secondes après chaque action de crawl, vous fixiez le délai de crawl à 5 comme cela : 

User-agent: Googlebot  

Crawl-delay: 5 

Google ne soutient plus cette directive, mais Bing et Yandex le font. 

Cela dit, soyez prudent lors de l’élaboration de cette directive, surtout si vous avez un gros site. Si vous fixez un délai d’exploration de 5 secondes, alors vous limitez les robots à un maximum de 17 280 URL par jour. Ce n’est pas très utile si vous avez des millions de pages, mais cela pourrait permettre d’économiser de la bande passante si vous avez un petit site web. 

Noindex 

Cette directive n’a jamais été officiellement soutenue par Google. Cependant, jusqu’à récemment, on pensait que Google avait un « code qui gère des règles non prises en charge et non publiées (comme noindex) ». Donc si vous voulez empêcher Google d’indexer tous les articles de votre blog, vous pouvez utiliser la directive suivante : 

User-agent: Googlebot  

Noindex: /blog/ 

Cependant, le 1er septembre 2019, Google a clairement indiqué que cette directive n’est pas soutenue. Si vous souhaitez exclure une page ou un fichier des moteurs de recherche, utilisez plutôt la balise meta robots ou l’en-tête HTTP x-robots. 

Nofollow 

C’est une autre directive que Google n’a jamais officiellement soutenue, et qui a été utilisée pour instruire les moteurs de recherche de ne pas suivre les liens sur les pages et les fichiers sous un chemin spécifique. Par exemple, si vous voulez empêcher Google de suivre tous les liens de votre blog, vous pouvez utiliser la directive suivante : 

User-agent: Googlebot  

Nofollow: /blog/

Google a annoncé que cette directive n’est officiellement plus soutenue le 1er septembre 2019. Si vous souhaitez désormais ne plus suivre tous les liens d’une page, vous devez utiliser la balise meta des robots ou l’en-tête x-robots. Si vous voulez dire à Google de ne pas suivre certains liens sur une page, utilisez l’attribut de lien rel= »nofollow ». 

Avez-vous besoin d’un fichier robots.txt ? 

Avoir un fichier robots.txt n’est pas crucial pour beaucoup de sites web, surtout les plus petits. 

Cela dit, il n’y a pas de raison de ne pas en avoir un. Il vous permet de mieux contrôler les endroits où les moteurs de recherche peuvent et ne peuvent pas aller sur votre site web, et cela peut vous aider pour des choses comme 

  • Empêcher l’exploration de contenus dupliqués ; 
  • Garder des sections d’un site web privées ; 
  • Empêcher l’exploration des pages de résultats de recherche internes ; 
  • Prévenir la surcharge du serveur ; 
  • Empêcher Google de gaspiller son « budget d’exploration« . 
  • Empêcher les imagesles vidéos et les fichiers ressources d’apparaître dans les résultats de recherche Google. 

Notez que si Google n’indexe généralement pas les pages Web bloquées dans le fichier robots.txt, il n’y a aucun moyen de garantir l’exclusion des résultats de recherche à l’aide du fichier robots.txt. 

Comme le dit Google, si un contenu est lié à d’autres sites web, il peut toujours apparaître dans les résultats de recherche Google. 

Comment trouver votre fichier robots.txt 

Si vous avez déjà un fichier robots.txt sur votre site web, il sera accessible à l’adresse domaine.com/robots.txt. Naviguez jusqu’à l’URL dans votre navigateur. Si vous voyez quelque chose comme ça, c’est que vous avez un fichier robots.txt : 

image 6

Comment créer un fichier robots.txt 

Si vous n’avez pas encore de fichier robots.txt, il est facile d’en créer un. Il vous suffit d’ouvrir un document .txt vierge et de commencer à taper des directives. Par exemple, si vous voulez interdire à tous les moteurs de recherche d’explorer votre répertoire /admin/, il ressemblera à ceci : 

User-agent: *  

Disallow: /admin/ 

Continuez à élaborer les directives jusqu’à ce que vous soyez satisfait de ce que vous avez. Enregistrez votre fichier sous le nom de « robots.txt ». 

Vous pouvez également utiliser un générateur de robots.txt comme celui-ci

image 7

L’avantage d’utiliser un tel outil est qu’il minimise les erreurs de syntaxe. C’est une bonne chose, car une seule erreur peut entraîner une catastrophe en matière de référencement pour votre site. 

L’inconvénient est qu’ils sont quelque peu limités en termes de personnalisation. 

Où placer votre fichier robots.txt 

Placez votre fichier robots.txt dans le répertoire racine du sous-domaine auquel il s’applique. Par exemple, pour contrôler le comportement de crawling sur le domaine.com, le fichier robots.txt doit être accessible à l’adresse domain.com/robots.txt. 

Si vous souhaitez contrôler l’exploration d’un sous-domaine comme blog.domaine.com, le fichier robots.txt doit être accessible à l’adresse blog.domaine.com/robots.txt. 

Les meilleures pratiques  

Gardez-les à l’esprit pour éviter les erreurs courantes. 

Utilisez une nouvelle ligne pour chaque directive 

Chaque directive devrait se situer sur une nouvelle ligne. Sinon, les moteurs de recherche seront désorientés. 

Mauvais : 

User-agent: * Disallow: /dossier/ Disallow: /autre-dossier/ 

Bon:  

User-agent: *  

Disallow: /dossier/  

Disallow: /autre-dossier/ 

Utiliser des Astérix pour simplifier les instructions 

Vous pouvez non seulement utiliser des astérix (*) pour déclarer les directives à tous les user-agents, mais aussi pour faire correspondre les modèles d’URL lors de la déclaration des directives. Par exemple, si vous voulez empêcher les moteurs de recherche d’accéder aux URL des catégories de produits paramétrées sur votre site, vous pouvez les lister comme ceci : 

User-agent: *  

Disallow: /products/t-shirts?  

Disallow: /products/hoodies?  

Disallow: /products/jackets? 

Mais ce n’est pas très efficace. Il serait préférable de simplifier les choses avec un joker comme celui-ci : 

User-agent: *  

Disallow: /products/*? 

Cet exemple empêche les moteurs de recherche d’explorer toutes les URL situées dans le sous-dossier /product/ qui contiennent un point d’interrogation. En d’autres termes, toute URL de catégorie de produit paramétrée 

Utilisez « $ » pour spécifier la fin d’une URL 

Inclure le symbole « $ » pour marquer la fin d’une URL. Par exemple, si vous voulez empêcher les moteurs de recherche d’accéder à tous les fichiers .pdf de votre site, votre fichier robots.txt pourrait ressembler à ceci : 

User-agent: *  

Disallow: /*.pdf$ 

Dans cet exemple, les moteurs de recherche ne peuvent accéder à aucune URL se terminant par .pdf. Cela signifie qu’ils ne peuvent pas accéder à /file.pdf, mais qu’ils peuvent accéder à /file.pdf?id=68937586 parce que cela ne se termine pas par « .pdf ». 

N’utiliser chaque user-agent qu’une seule fois 

Si vous spécifiez le même user-agent plusieurs fois, cela ne dérange pas Google. Il se contentera de combiner toutes les règles des différentes déclarations en une seule et de les suivre toutes. Par exemple, si vous aviez les user-agents et directives suivants dans votre fichier robots.txt… 

User-agent: Googlebot  

Disallow: /a/  

User-agent: Googlebot  

Disallow: /b/ 

… Googlebot ne voudra pas fouiller dans ces sous-dossiers. 

Cela dit, il est logique de ne déclarer chaque user-agent qu’une seule fois, car c’est moins déroutant. En d’autres termes, vous risquez moins de faire des erreurs critiques en gardant les choses simples et bien rangées.  

Cela dit, il est logique de ne déclarer chaque user-agent qu’une seule fois, car c’est moins déroutant. En d’autres termes, vous risquez moins de faire des erreurs critiques en gardant les choses simples et bien rangées. 

Utiliser la spécificité pour éviter les erreurs involontaires 

Le fait de ne pas fournir d’instructions spécifiques lors de la définition des directives peut entraîner des erreurs faciles à commettre qui peuvent avoir un impact catastrophique sur votre référencement. Supposons par exemple que vous ayez un site multilingue et que vous travailliez sur une version allemande qui sera disponible dans le sous-répertoire /de/. 

Comme il n’est pas tout à fait prêt, vous voulez empêcher les moteurs de recherche d’y accéder. 

Le fichier robots.txt ci-dessous empêchera les moteurs de recherche d’accéder à ce sous-répertoire et à tout ce qu’il contient : 

User-agent: *  

Disallow: /de 

Mais il empêchera également les moteurs de recherche de parcourir les pages ou les fichiers commençant par /de. 

Par exemple : 

/designer/ 

/depeche-mode/t-shirts/ 

/définitivement non accessible au public.pdf 

Dans ce cas, la solution est simple : ajouter une barre oblique. 

User-agent: *  

Disallow: /de/ 

Utilisez les commentaires pour expliquer votre fichier robots.txt aux humains 

Les commentaires aident à expliquer votre fichier robots.txt aux développeurs – et potentiellement même à votre futur moi. Pour inclure un commentaire, commencez la ligne par un dièse (#). 

# Cela donne l'instruction à Bing de ne pas fouiller notre site. 

User-agent : Bingbot 

Rejeter : / 

Les robots ignoreront tout sur les lignes qui commencent par un hashtag. 

Utiliser un fichier robots.txt distinct pour chaque sous-domaine 

Robots.txt ne contrôle que le comportement de crawling sur le sous-domaine où il est hébergé. Si vous souhaitez contrôler l’exploration d’un sous-domaine différent, vous aurez besoin d’un fichier robots.txt séparé. 

Par exemple, si votre site principal se trouve sur domaine.com et votre blog sur blog.domaine.com, vous aurez besoin de deux fichiers robots.txt. L’un doit aller dans le répertoire racine du domaine principal, et l’autre dans le répertoire racine du blog. 

Exemples de fichiers robots.txt 

Vous trouverez ci-dessous quelques exemples de fichiers robots.txt. Ils sont principalement destinés à vous inspirer, mais s’il y en a un qui correspond à vos besoins, copiez-collez le dans un document texte, enregistrez-le sous le nom « robots.txt » et téléchargez-le dans le répertoire approprié. 

Accès pour tous les robots 

User-agent: *  

Disallow: 

Le fait de ne pas déclarer une URL après une directive rend cette directive superflue. En d’autres termes, les moteurs de recherche l’ignorent. C’est pourquoi cette directive de rejet n’a aucun effet sur le site. Les moteurs de recherche peuvent toujours explorer toutes les pages et tous les fichiers.

Pas d’accès pour tous les bots 

User-agent: *  

Disallow: / 

Bloquer un sous-répertoire pour tous les bots 

User-agent: *  

Disallow: /folder/  

Allow: /folder/page.html 

Bloquer un fichier pour tous les robots 

User-agent: *  

Disallow: /ceci-est-un-fichier.pdf 

Bloquer un type de fichier (PDF) pour tous les robots

User-agent: *  

Disallow: /*.pdf$ 

 

Bloquer toutes les URL paramétrées pour Googlebot uniquement 

User-agent: Googlebot  

Disallow: /*? 

Comment vérifier si votre fichier robots.txt contient des erreurs 

Les erreurs de Robots.txt peuvent se glisser assez facilement, il est donc utile de garder un œil sur les problèmes. 

Pour ce faire, vérifiez régulièrement les problèmes liés à robots.txt dans le rapport « Couverture » de la console de recherche. Vous trouverez ci-dessous quelques-unes des erreurs que vous pourriez voir, ce qu’elles signifient et comment vous pourriez les corriger. 

Vous avez besoin de vérifier les erreurs liées à une certaine page ? 

Collez une URL dans l’outil d’inspection d’URL de Google dans la console de recherche. Si elle est bloquée par le fichier robots.txt, vous devriez voir quelque chose comme ceci : 

image 8

Cela signifie qu’au moins une des URL de votre sitemap est bloquée par robots.txt. 

Si vous avez créé votre sitemap correctement et avez exclu les pages canonisées, non indexées et redirigées, alors aucune des pages soumises ne doit être bloquée par robots.txt. Si elles le sont, vérifiez quelles sont les pages concernées, puis ajustez votre fichier robots.txt en conséquence pour supprimer le blocage de cette page. 

Vous pouvez utiliser le testeur robots.txt de Google pour savoir quelle directive bloque le contenu. Faites attention à cette opération. Il est facile de faire des erreurs qui affectent d’autres pages et fichiers. 

FAQs 

Voici quelques questions fréquemment posées. Faites-moi savoir dans les commentaires s’il manque quelque chose, et je mettrais la section à jour en conséquence. 

Quelle est la taille maximale d’un fichier robots.txt ? 

500 kilo-octets (environ). 

Où se trouve le fichier robots.txt dans WordPress ? 

Au même endroit : domaine.com/robots.txt. 

Comment modifier le fichier robots.txt dans WordPress ? 

Soit manuellement, soit en utilisant l’un des nombreux plugins de référencement de WordPress comme Yoast qui vous permet de modifier le fichier robots.txt à partir du backend de WordPress. 

Que se passe-t-il si je refuse l’accès à un contenu avec l’attribut noxindex dans robots.txt ? 

Google ne verra jamais la directive sur les contenus noindex car il ne peut pas explorer la page. 

Conclusion 

Robots.txt est un fichier simple mais puissant. Utilisez-le à bon escient, et il peut avoir un impact positif sur le référencement. Utilisez-le au hasard et, eh bien, vous le regretterez toute votre vie. 

Vous avez d’autres questions ? Laissez un commentaire ou envoyez-moi un ping sur Twitter. 

Retour haut de page

S'abonner à ma newsletter

Des conseils en SEO et de stratégies marketing livrées directement dans votre boîte de réception 2x par semaine
1 Share
Share via
Copy link
Powered by Social Snap