(Re)découvrez le fichier robots.txt : 21 astuces SEO inattendues

Optimisation SEO : Guide complet sur l'utilisation efficace du fichier robots.txt pour votre site web

Lorsqu'on évoque le fichier robots.txt, plusieurs profils se dessinent :

Celui qui le minimise (un clic automatique ici et par là, et voilà !)
Celui qui ignore ce que c'est (le fichier robots.txt, quésaquo ?)
Et l'incollable, qui le passe au peigne fin deux fois par semaine

Lequel êtes-vous ? Quoi qu'il en soit, vous ne pouvez pas vous permettre de l'ignorer car il impacte sérieusement la visibilité de votre site internet.

Dans cet article, vous découvrirez ou réviserez les bases du fichier robots.txt pour en faire un allié sûr.

Qu'est-ce que le fichier robots.txt?

Le fichier robots.txt est né d'une volonté d'économie de bande passante. C'est sur l'idée de Martijn Koster que fut créé le Standard for Robot Exclusion ou Protocole d'Exclusion des Robots¹. Il est non obligatoire mais recommandé et très prisé par les administrateurs de sites web.

Le fichier robots.txt indique aux moteurs de recherche comment accéder et naviguer sur votre site internet². Dans votre fichier, vous indiquerez les liens de pages inutiles à votre SEO, pour en interdire l'accès à Google ou aux autres robots d'indexation. Par exemple :

Les fichiers non indexables tels que les PDF ou des œuvres scientifiques
Les URLs inutiles à votre référencement
Les répertoires que vous préférez réserver, etc.

Pourquoi le fichier robots.txt est-il important ?

Il bloque partiellement ou totalement l'accès des crawleurs à votre site internet
Il évite également l'indexation³ des pages que vous désignez
Il vous aide à économiser votre budget de crawl
Vous devez lister précisément les pages interdites aux robots d'indexation dans votre fichier robots.txt

Comment utiliser judicieusement votre fichier robots.txt pour votre SEO en 21 points?

Les 10 erreurs les plus courantes à éviter

Laisser Google indexer votre fichier robots.txt : Il faut alors le désindexer. Vous pouvez interdire le crawl, puis le supprimer de l'index dans la Search Console de Google. Ou bien vous pouvez utiliser X-Robots-Tag pour une désindexation rapide.
Utiliser un fichier robots.txt de plus de 500ko. Dans ce cas-là, tout ce qui dépasse la taille est ignoré par Google
Indiquer des éléments importants dans les commentaires. Les commentaires commencent par un # et sont pour vous-même. Cependant, Google les ignore.
Négliger les détails. En effet, Googlebot prend des directives supplémentaires en charge depuis 2008, en particulier la commande Allow, la déclaration de fichier sitemap, ainsi que les caractères joker $ et *
Ajouter le blocage d'une URL en temps réel. Au contraire, procédez-y au moins 24 heures avant puis publiez-la. En effet, c'est le rythme auquel Google télécharge votre fichier robots.txt depuis l'an 2000
Utiliser la directive Crawl-delay sans paramétrage spécifique. Quoique gérée sans problème par Bing, celle-ci est ignorée par Google. Vous devrez la configurer manuellement dans la Search Console.
Oublier de vérifier que Google accède effectivement à votre fichier robots.txt. En cas de problème, la notification s'affichera dans la Search Console et vous devrez lui permettre l'exploration. Le code 200 indique que le fichier existe et qu'il est accessible. Alors que les codes 403 ou 404 montrent l'inaccessibilité du fichier, ou que le code HTTP renvoyé n'est pas cohérent)
Indiquer des URL ou rubriques sensibles dans votre fichier robots.txt. Il ne protège pas ce type de données. Aussi, abstenez-vous et installez plutôt des protections adaptées telles que les logins pour ces éléments spécifiques.
Bloquer les URL en cours de redirection. Si vous le faites, les moteurs ne tiendront pas compte de la redirection.
Bloquer une URL déjà indexée dans le fichier robots.txt. Il est déjà trop tard ! En plus, une fois désindexée elle restera statique en ligne. Au contraire, autorisez son indexation dans un premier temps, puis demandez sa suppression dans la Search Console. Vous pouvez également utiliser un entête HTTP X-Robots-Tag ou bien la balise meta robots noindex.

Les 11 conseils pratiques pour performer

user-agent, disallow, allow et sitemap sont les seules directives prises en compte par Google. La casse n'est pas prise en compte
Le fichier texte doit être encodé en UTF-8, car en BOM il ne sera pas reconnu par Google
Chaque protocole (HTTP et HTTPS) doit être associé à un fichier robots.txt
Chaque sous-domaine également
L'écriture du fichier : robots txt (nom obligatoire), totalement en minuscules, et S à la fin du mot “robots).
L'URL commence obligatoirement par un slash
La directive noindex n'est plus supportée par Google depuis le 1er septembre 2019. Par conséquent, ne la prenez pas pour acquise et ne l'utilisez pas comme un standard dans le fichier robots.txt
Même s'ils sont optionnels, incluez des espaces pour une meilleure visibilité de votre fichier
Google accepte le fichier robots.txt via le protocole FTP
L'ordre des directives Allow et Disallow n'est pas optionnel, tenez-en compte
Au cas où vous avez bloqué le site intégral en prépod (Disallow: /), la directive doit être supprimée avant de placer le site en prod

Quels sont les autres éléments à considérer concernant le fichier robots.txt ?

Sélectionnez avec soin votre générateur de fichiers robots.txt pour garder le contrôle sur votre site internet
Avec Wix, votre fichier robots.txt est créé automatiquement
Que vous soyez dans HTTP ou HTTPS, le fichier robots.txt est le même. Vous êtes simplement redirigé
Pour renseigner votre fichier robots.txt, saisissez les informations avec un éditeur de texte. Cependant évitez MS Word, qui a souvent des résultats inesthétiques voire pire
Pour supprimer votre fichier robots.txt, visitez le même répertoire que celui de la page d'accueil du site via FTP

Vous serez amené à modifier régulièrement votre fichier robots.txt. Plusieurs méthodes permettent de le retrouver facilement.

Comment retrouver votre fichier robots.txt ?

Retrouver votre fichier robots.txt dans WordPress

Avec Yoast SEO

Connectez-vous à votre compte wp-admin⁴
Yoast SEO plugin>Tools, dans la barre latérale
File editor

Avec Rank Math

Connectez-vous à votre compte wp-admin
Rank Math>General Settings
Edit Robots.txt

Avec All in One SEO

Connectez-vous à votre compte wp-admin
All in one SEO > Robots.txt

Retrouver votre fichier robots.txt dans Magento 2

Allez à Content>Configuration (Sous Design)
Modifiez les paramètres⁵ de Main Website (Default Store View n'autorise pas la modification)

Retrouver votre fichier robots.txt dans votre boutique en ligne

Actuellement, modifier votre fichier robots txt n'est pas réalisable avec l'installation par défaut de Shopware. Il vous faudra donc un plugin⁶.

Les questions fréquentes sur le sujet

Les balises méta et le fichier robots.txt, c'est pareil ?

Non. Le fichier robots.txt et les balises méta ont des fonctions différentes. Le fichier robots.txt agit avant l'arrivée du crawler sur votre site internet. Tandis que les balises méta gèrent l'indexation. L'action se passe une fois que le crawler se pointe sur votre site internet.

Qu'est-ce qui s'est passé pour que l'utilisation de noindex n'existe plus dans le fichier robot.txt ?

Google a décidé de gérer les sites internet avec plus de transparence. La directive noindex concerne l'indexation. Depuis le 1er septembre 2019, le fichier robots.txt est entièrement consacré à sa spécialité d'exploration (crawl) pour plus de clarté dans l'utilisation.

Mes instructions dans le fichier robots.txt apparaîtront trop tard. Que faire ?

Si vous souhaitez court-circuiter le délai habituel (de quelques heures à quelques jours), allez à la rubrique Exploration. Cliquez sur Outil de test du fichier robots.txt, puis Envoyer. Une fenêtre pop-up apparaîtra. Cliquez sur Demander la mise à jour à Google, puis Envoyer.

Est-ce une bonne idée de bloquer les JS et CSS dans le fichier robots.txt ?

Non, même si la manœuvre est possible. Les fichiers JS et CSS contribuent à l'affichage de votre site internet. Sans eux, les robots ne montreront pas vos pages sous leur plus beau jour aux internautes. Pire : votre site internet peut devenir inaccessible.

L'usage subtil du fichier robots.txt

Le fichier robots.txt est d'un usage subtil, mais simple. Il requiert une attention particulière car il constitue une interface clé de communication avec les robots d'indexation de sites web.

Le fichier robots.txt est né d'une volonté d'économie de bande passante
Il n'est pas obligatoire
Vous pouvez le créer manuellement ou utiliser des générateurs de fichiers robots.txt
Vous pouvez le modifier ou le supprimer en suivant certaines règles pour un résultat conforme

Un vieux proverbe français affirme que “Rien ne sert de courir, il faut partir à point.” Cette maxime a tout son sens avec le fichier robots.txt : calibré correctement, il sera pour vous une source de trafic qualitatif.

Références :

robots.txt, Wikipédia. Consulté le 29 janvier 2024. ↩︎
Robots.txt, Moz. Consulté le 29 janvier 2024. ↩︎
Présentation du fichier robots.txt, Google Search Central. Consulté le 29 janvier 2024. ↩︎
How do I create a robots.txt? Conductor. Consulté le 29 janvier 2024. ↩︎
How do I find my robots.txt file? Conductor. Consulté le 29 janvier 2024. ↩︎
Rédiger et envoyer un fichier robots.txt, Google Search Central. Consulté le 29 janvier 2024. ↩︎

Nouveautés

Avec Copilot, tu peux faire des choses incroyables dans Microsoft Office 365 : On te fait le récap !

AdCreative.ai : L’outil magique pour vos pubs qui cartonnent

HubSpot AI Search Grader : La promesse, sans l’étincelle

Stay Connected

SEO: (Re)découvrez le fichier robots.txt en 21 nuances insoupçonnées

Optimisation SEO : Guide complet sur l'utilisation efficace du fichier robots.txt pour votre site web

Qu'est-ce que le fichier robots.txt?

Pourquoi le fichier robots.txt est-il important ?

Comment utiliser judicieusement votre fichier robots.txt pour votre SEO en 21 points?

Les 10 erreurs les plus courantes à éviter

Les 11 conseils pratiques pour performer

Quels sont les autres éléments à considérer concernant le fichier robots.txt ?

Comment retrouver votre fichier robots.txt ?

Retrouver votre fichier robots.txt dans WordPress

Avec Yoast SEO

Avec Rank Math

Avec All in One SEO

Retrouver votre fichier robots.txt dans Magento 2

Retrouver votre fichier robots.txt dans votre boutique en ligne

Les questions fréquentes sur le sujet

Les balises méta et le fichier robots.txt, c'est pareil ?

Qu'est-ce qui s'est passé pour que l'utilisation de noindex n'existe plus dans le fichier robot.txt ?

Mes instructions dans le fichier robots.txt apparaîtront trop tard. Que faire ?

Est-ce une bonne idée de bloquer les JS et CSS dans le fichier robots.txt ?

L'usage subtil du fichier robots.txt

Articles complémentaires

Google condamné : une amende record qui fait trembler la tech

Affaire Scarlett Johansson : ChatGPT perd de la voix

Comprendre la recherche vidéo inversée : par où commencer ?

15 grosses erreurs dans ta recherche de mots-clés

Tutoriel Google Ads : Comment installer la balise de suivi de conversion

Meta: encore une fois dans le viseur de l’UE pour violation du DMA

Sortie Google : Non, Gmail ne va pas disparaître

SEO : Google Search Console apporte du style à vos résultats

Espace membre

Qui sommes-nous