Optimisation SEO : Guide complet sur l'utilisation efficace du fichier robots.txt pour votre site web
Lorsqu'on évoque le fichier robots.txt, plusieurs profils se dessinent :
- Celui qui le minimise (un clic automatique ici et par là, et voilà !)
- Celui qui ignore ce que c'est (le fichier robots.txt, quésaquo ?)
- Et l'incollable, qui le passe au peigne fin deux fois par semaine
Lequel êtes-vous ? Quoi qu'il en soit, vous ne pouvez pas vous permettre de l'ignorer car il impacte sérieusement la visibilité de votre site internet.
Dans cet article, vous découvrirez ou réviserez les bases du fichier robots.txt pour en faire un allié sûr.
Qu'est-ce que le fichier robots.txt?
Le fichier robots.txt est né d'une volonté d'économie de bande passante. C'est sur l'idée de Martijn Koster que fut créé le Standard for Robot Exclusion ou Protocole d'Exclusion des Robots1. Il est non obligatoire mais recommandé et très prisé par les administrateurs de sites web.
Le fichier robots.txt indique aux moteurs de recherche comment accéder et naviguer sur votre site internet2. Dans votre fichier, vous indiquerez les liens de pages inutiles à votre SEO, pour en interdire l'accès à Google ou aux autres robots d'indexation. Par exemple :
- Les fichiers non indexables tels que les PDF ou des œuvres scientifiques
- Les URLs inutiles à votre référencement
- Les répertoires que vous préférez réserver, etc.
Pourquoi le fichier robots.txt est-il important ?
- Il bloque partiellement ou totalement l'accès des crawleurs à votre site internet
- Il évite également l'indexation3 des pages que vous désignez
- Il vous aide à économiser votre budget de crawl
- Vous devez lister précisément les pages interdites aux robots d'indexation dans votre fichier robots.txt
Comment utiliser judicieusement votre fichier robots.txt pour votre SEO en 21 points?
Les 10 erreurs les plus courantes à éviter
- Laisser Google indexer votre fichier robots.txt : Il faut alors le désindexer. Vous pouvez interdire le crawl, puis le supprimer de l'index dans la Search Console de Google. Ou bien vous pouvez utiliser X-Robots-Tag pour une désindexation rapide.
- Utiliser un fichier robots.txt de plus de 500ko. Dans ce cas-là, tout ce qui dépasse la taille est ignoré par Google
- Indiquer des éléments importants dans les commentaires. Les commentaires commencent par un # et sont pour vous-même. Cependant, Google les ignore.
- Négliger les détails. En effet, Googlebot prend des directives supplémentaires en charge depuis 2008, en particulier la commande Allow, la déclaration de fichier sitemap, ainsi que les caractères joker $ et *
- Ajouter le blocage d'une URL en temps réel. Au contraire, procédez-y au moins 24 heures avant puis publiez-la. En effet, c'est le rythme auquel Google télécharge votre fichier robots.txt depuis l'an 2000
- Utiliser la directive Crawl-delay sans paramétrage spécifique. Quoique gérée sans problème par Bing, celle-ci est ignorée par Google. Vous devrez la configurer manuellement dans la Search Console.
- Oublier de vérifier que Google accède effectivement à votre fichier robots.txt. En cas de problème, la notification s'affichera dans la Search Console et vous devrez lui permettre l'exploration. Le code 200 indique que le fichier existe et qu'il est accessible. Alors que les codes 403 ou 404 montrent l'inaccessibilité du fichier, ou que le code HTTP renvoyé n'est pas cohérent)
- Indiquer des URL ou rubriques sensibles dans votre fichier robots.txt. Il ne protège pas ce type de données. Aussi, abstenez-vous et installez plutôt des protections adaptées telles que les logins pour ces éléments spécifiques.
- Bloquer les URL en cours de redirection. Si vous le faites, les moteurs ne tiendront pas compte de la redirection.
- Bloquer une URL déjà indexée dans le fichier robots.txt. Il est déjà trop tard ! En plus, une fois désindexée elle restera statique en ligne. Au contraire, autorisez son indexation dans un premier temps, puis demandez sa suppression dans la Search Console. Vous pouvez également utiliser un entête HTTP X-Robots-Tag ou bien la balise meta robots noindex.
Les 11 conseils pratiques pour performer
- user-agent, disallow, allow et sitemap sont les seules directives prises en compte par Google. La casse n'est pas prise en compte
- Le fichier texte doit être encodé en UTF-8, car en BOM il ne sera pas reconnu par Google
- Chaque protocole (HTTP et HTTPS) doit être associé à un fichier robots.txt
- Chaque sous-domaine également
- L'écriture du fichier : robots txt (nom obligatoire), totalement en minuscules, et S à la fin du mot “robots).
- L'URL commence obligatoirement par un slash
- La directive noindex n'est plus supportée par Google depuis le 1er septembre 2019. Par conséquent, ne la prenez pas pour acquise et ne l'utilisez pas comme un standard dans le fichier robots.txt
- Même s'ils sont optionnels, incluez des espaces pour une meilleure visibilité de votre fichier
- Google accepte le fichier robots.txt via le protocole FTP
- L'ordre des directives Allow et Disallow n'est pas optionnel, tenez-en compte
- Au cas où vous avez bloqué le site intégral en prépod (Disallow: /), la directive doit être supprimée avant de placer le site en prod
Quels sont les autres éléments à considérer concernant le fichier robots.txt ?
- Sélectionnez avec soin votre générateur de fichiers robots.txt pour garder le contrôle sur votre site internet
- Avec Wix, votre fichier robots.txt est créé automatiquement
- Que vous soyez dans HTTP ou HTTPS, le fichier robots.txt est le même. Vous êtes simplement redirigé
- Pour renseigner votre fichier robots.txt, saisissez les informations avec un éditeur de texte. Cependant évitez MS Word, qui a souvent des résultats inesthétiques voire pire
- Pour supprimer votre fichier robots.txt, visitez le même répertoire que celui de la page d'accueil du site via FTP
Vous serez amené à modifier régulièrement votre fichier robots.txt. Plusieurs méthodes permettent de le retrouver facilement.
Comment retrouver votre fichier robots.txt ?
Retrouver votre fichier robots.txt dans WordPress
Avec Yoast SEO
- Connectez-vous à votre compte wp-admin4
- Yoast SEO plugin>Tools, dans la barre latérale
- File editor
Avec Rank Math
- Connectez-vous à votre compte wp-admin
- Rank Math>General Settings
- Edit Robots.txt
Avec All in One SEO
- Connectez-vous à votre compte wp-admin
- All in one SEO > Robots.txt
Retrouver votre fichier robots.txt dans Magento 2
- Allez à Content>Configuration (Sous Design)
- Modifiez les paramètres5 de Main Website (Default Store View n'autorise pas la modification)
Retrouver votre fichier robots.txt dans votre boutique en ligne
Actuellement, modifier votre fichier robots txt n'est pas réalisable avec l'installation par défaut de Shopware. Il vous faudra donc un plugin6.
Les questions fréquentes sur le sujet
Les balises méta et le fichier robots.txt, c'est pareil ?
Non. Le fichier robots.txt et les balises méta ont des fonctions différentes. Le fichier robots.txt agit avant l'arrivée du crawler sur votre site internet. Tandis que les balises méta gèrent l'indexation. L'action se passe une fois que le crawler se pointe sur votre site internet.
Qu'est-ce qui s'est passé pour que l'utilisation de noindex n'existe plus dans le fichier robot.txt ?
Google a décidé de gérer les sites internet avec plus de transparence. La directive noindex concerne l'indexation. Depuis le 1er septembre 2019, le fichier robots.txt est entièrement consacré à sa spécialité d'exploration (crawl) pour plus de clarté dans l'utilisation.
Mes instructions dans le fichier robots.txt apparaîtront trop tard. Que faire ?
Si vous souhaitez court-circuiter le délai habituel (de quelques heures à quelques jours), allez à la rubrique Exploration. Cliquez sur Outil de test du fichier robots.txt, puis Envoyer. Une fenêtre pop-up apparaîtra. Cliquez sur Demander la mise à jour à Google, puis Envoyer.
Est-ce une bonne idée de bloquer les JS et CSS dans le fichier robots.txt ?
Non, même si la manœuvre est possible. Les fichiers JS et CSS contribuent à l'affichage de votre site internet. Sans eux, les robots ne montreront pas vos pages sous leur plus beau jour aux internautes. Pire : votre site internet peut devenir inaccessible.
L'usage subtil du fichier robots.txt
Le fichier robots.txt est d'un usage subtil, mais simple. Il requiert une attention particulière car il constitue une interface clé de communication avec les robots d'indexation de sites web.
- Le fichier robots.txt est né d'une volonté d'économie de bande passante
- Il n'est pas obligatoire
- Vous pouvez le créer manuellement ou utiliser des générateurs de fichiers robots.txt
- Vous pouvez le modifier ou le supprimer en suivant certaines règles pour un résultat conforme
Un vieux proverbe français affirme que “Rien ne sert de courir, il faut partir à point.” Cette maxime a tout son sens avec le fichier robots.txt : calibré correctement, il sera pour vous une source de trafic qualitatif.
Références :
- robots.txt, Wikipédia. Consulté le 29 janvier 2024. ↩︎
- Robots.txt, Moz. Consulté le 29 janvier 2024. ↩︎
- Présentation du fichier robots.txt, Google Search Central. Consulté le 29 janvier 2024. ↩︎
- How do I create a robots.txt? Conductor. Consulté le 29 janvier 2024. ↩︎
- How do I find my robots.txt file? Conductor. Consulté le 29 janvier 2024. ↩︎
- Rédiger et envoyer un fichier robots.txt, Google Search Central. Consulté le 29 janvier 2024. ↩︎