Reprenez le contrôle sur votre fichier robots.txt
Le fichier robots.txt ça vous parle ? Si vous êtes référenceur, la réponse est forcément oui ! Ce fichier est probablement l’outil le plus puissant à disposition des SEO pour contrôler et guider les nombreux bots qui explorent votre site. Évidemment, celui qui va nous intéresser en premier lieu, c’est « Google bot ». Bien que Bing reprenne quelques couleurs depuis l’avènement de ChatGPT, c’est encore sur Google que tout se passe pour la majorité d’entre vous.
Vous connaissez l’impact significatif que peuvent avoir ces quelques lignes de codes sur la manière dont votre site va être crawlé. Mais c’est parfois compliqué d’y accéder simplement où d’identifier les personnes côté tech qui pourront le modifier rapidement. Résultat, vous n’exploitez pas le robots.txt au maximum de ses capacités.
Dans cet article, nous verrons les bonnes pratiques en matière de robots.txt et les erreurs à ne pas commettre. Nous vous dévoilerons également en fin d’article, démo à l’appui, comment modifier ce fichier en quelques clics avec notre solution de EdgeSEO.
Le robots.txt : le point de départ pour un budget crawl optimisé
Vous le savez déjà, le fichier robots.txt est un fichier texte utilisé par les sites web pour communiquer avec les robots d’exploration des moteurs de recherche aka « Google Bot ». Il fournit des directives sur les zones du site que les robots sont autorisés ou non à explorer. Positionné à la racine du domaine, le fichier robots.txt agit comme un guide pour les robots, les aidant à comprendre quelles parties du site sont accessibles et lesquelles doivent être évitées, optimisant ainsi l’exploration de votre site.
En d’autres termes, le robots.txt doit vous permettre d’optimiser votre « budget crawl » pour maximiser le nombre de pages explorées par les bots, qui sont importantes pour votre business. Rappelez-vous, la première étape pour atteindre une première position dans les résultats de recherche Google, c’est que le bot découvre vos pages. Sans exploration, pas d’indexation et sans indexation pas de positionnement et donc pas de trafic SEO.
Les bonnes pratiques
Voyons maintenant quelques bonnes pratiques en matière de robots.txt.
- Le fichier robots.txt doit être placé à la racine de votre site web. Par exemple, pour le site www.nike.com/, le fichier robots.txt doit être accessible à l’adresse https://www.nike.com/robots.txt. C’est une convention, si vous ne le placez pas à la racine, il ne sera pas pris en compte. De même manière, il faut respecter scrupuleusement la syntaxe robots.txt.
- Un fichier robots.txt contient des groupes de règles. Chaque groupe commence par une ligne « User-agent » qui spécifie à quel robot d’exploration les règles s’appliquent, suivi de lignes « Disallow » ou « Allow » qui indiquent les chemins d’accès que les robots peuvent ou ne peuvent pas explorer.
- Vous pouvez utiliser des caractères génériques tels que « * » pour représenter n’importe quel nombre de caractères, ou « $ » pour indiquer la fin d’une URL.
- Attention, les règles dans le fichier robots.txt sont sensibles à la casse. Par exemple, « Disallow: /produit.html » s’applique à « https://nike.com/produit.html » mais pas à « nike.com/PRODUIT.html ».
- Vous pouvez utiliser la directive « Sitemap » pour indiquer l’emplacement de votre fichier Sitemap XML. Cela peut aider les robots d’exploration à découvrir plus rapidement le contenu de votre site.
- Vous pouvez utiliser des règles pour bloquer l’exploration de types de fichiers spécifiques, tels que les images ou les documents PDF.
Mais surtout… les erreurs à éviter
- Le fichier robots.txt est public et lisible par les internautes. N’utilisez jamais le robots.txt pour bloquer l’accès à des informations sensibles ou privées. Comme le fichier est public, cela pourrait exposer ces informations. Vous pouvez également bloquer l’accès aux internautes via le fichier .htaccess comme le fait la Fnac https://www.fnac.com/robots.txt
- Utiliser des règles trop larges, comme Disallow: /, qui bloquent tout le site. Cela peut empêcher les moteurs de recherche d’indexer votre site. Ou encore passer en production le robots.txt de preprod avec le Disallow: / (on le voit régulièrement celui-ci )
- Bloquer les fichiers CSS ou JavaScript qui sont essentiels pour le rendu de la page. Cela peut empêcher les moteurs de recherche de comprendre et d’indexer correctement le contenu.
- Utiliser des règles contradictoires : par exemple, utiliser une règle Disallow pour bloquer une URL, puis une règle Allow pour l’autoriser dans le même groupe d’agents d’utilisateur.
Si vous souhaitez en savoir davantage sur le robots.txt, vous pouvez consulter le guide de Google qui donne l’ensemble des informations utiles à son sujet. Vous pouvez également tester la validité de votre fichier, à partir de cette page.
Pourquoi le robots.txt est si important en SEO ?
En SEO, le robots.txt est important pour optimiser votre « crawl budget ». Si le bot de Google passe une heure par jour sur votre site, votre objectif est qu’il découvre les pages que vous souhaitez positionner dans les résultats de recherche. Inutile qu’il crawl des pages sans intérêt.
Malheureusement, il n’est pas rare de découvrir lorsque vous analysez vos logs que Google peut tourner en boucle sur des pages qui devraient être bloquées dans votre robots.txt. N’oubliez pas non plus que si vous donnez les bonnes informations au bot de Google, il sera efficace et ce sont vos performances globales d’indexation qui seront optimisées. C’est d’autant plus vrai si vous gérez des sites avec plusieurs millions de pages.
Il peut aussi vous faire économiser de la bande passante sur vos serveurs en bloquant certains robots qui ne devraient pas parcourir vos pages.
Reprenez la main sur votre robots.txt !
Mettre en place des règles pour votre robots.txt n’est pas compliqué. Vous pouvez demander conseil à votre agence pour avoir les bonnes recommandations en fonction de votre contexte. Cependant, y accéder et le modifier peut s’avérer plus compliqué. En effet, combien de SEO peinent à (n’ayons pas peur des mots) appliquer leurs modifications, que ce soit lié aux limites du CMS ou bien à la difficulté d’identifier le bon interlocuteur, sans y passer des heures. Une modification qui demande quelques minutes peut se transformer en quelques jours voire plusieurs semaines !
Si vous êtes dans ce cas, il existe aujourd’hui des solutions qui vous permettent de reprendre la main sur votre robots.txt et plus globalement sur votre roadmap SEO. Le EdgeSEO vous permet de modifier directement le code de votre site « at the Edge » et de by-passer les limitations techniques de votre CMS. Nous vous mettons à disposition un dashboard « user friendly » pour déployer vos recommandations SEO simplement. Vous gagnez ainsi en agilité et en autonomie (et pouvez tester facilement toutes vos optimisations).
Vous souhaitez prendre de l’avance sur vos concurrents et mettre en place notre solution EdgeSEO, faites une demande de démo !
Ajouter, modifier votre fichier robots.txt n’a jamais été aussi simple. En quelques secondes, vous allez pouvoir déployer vos règles et ainsi tester facilement de nouvelles stratégies.