SEO : Google réduit robots.txt à 4 champs, suivez la mise à jour
Google a clarifié sa position concernant le fichier robots.txt. Désormais, la compagnie prend spécifiquement 4 champs en charge. Toutes les autres directives seront ignorées.
L’utilité du fichier robots.txt pour le SEO
Souvent confondu avec la balise noindex, le fichier robots.txt sert à limiter la surcharge de votre site internet. Pour ce faire, il indique aux moteurs de recherche les URL qu’ils peuvent visiter.
La balise noindex quant à elle, bloque l’indexation de vos pages web de sorte à ce qu’elles n’apparaissent pas dans les résultats de recherche sur Google.
Le fichier robots.txt doit être mis à jour1 fréquemment. Il entraîne des réactions différentes selon chaque type de fichier :
- Pour les pages web : Votre URL peut quand même apparaître dans les résultats de recherche. Seulement elle sera sans description. Au cas où vous souhaitez voir apparaître la description de votre site, vous devez supprimer l’entrée robots.txt correspondante.
- Pour les fichiers multimédia : Vos fichiers multimédia (image, audio et vidéo) n’apparaissent plus dans la recherche. Les autres pages et les utilisateurs restent autorisés à créer des liens directement dirigés vers eux.
- Pour les fichiers de ressources : Normalement, cette manœuvre doit faciliter le chargement des pages. Autrement, et surtout si elles compliquent la tâche aux robots d’exploration de Google, renoncez à les bloquer.
Il existe plusieurs types de directives de fichier robots.txt. A la base, ils ne sont pas compatibles avec tous les moteurs de recherche. De plus, en cas de compatibilité, chaque robot d’exploration fera sa propre interprétation2 de votre fichier robots.txt. Cependant, la nouvelle annonce de Google soulève plusieurs enjeux pour le SEO.
Des enjeux pour l’optimisation technique de votre site internet
Google opère des choix qui impactent directement la performance SEO de votre site internet. Alors que la balise est en suppression progressive, des directives importantes telles que crawl-delay sont désormais ignorées.
Le moteur de recherche opte pour la précision. Il s’agit d’homogénéiser ses directives aux administrateurs et aux propriétaires de sites web :
Les 4 champs de robots.txt désormais pris en charge
- user-agent
- sitemap
- allow
- disallow
Quelles précautions faut-il prendre pour votre site web ?
Si comme la majorité des administrateurs web dans le monde, vous choisissez d’apparaître sur Google, il faut vous cantonner aux directives que l’entreprise prend en charge. Documentez-vous fréquemment pour appliquer correctement les bonnes pratiques en temps réel.
Semer vos petites graines avec le fichier robots.txt
Google a certes restreint sa prise en charge des fichiers robots.txt à 4 champs. Cependant, d’autres moteurs de recherche existent. Plus de place au hasard, choisissez d’être plus malins que le diable 😈 (à prendre au second degré) :
- Vérifiez que vos fichiers robots.txt respectent la nouvelle mise à jour de Google
- Identifiez les directives non prises en charge
- Énumérez les moteurs de recherche qui acceptent les directives non approuvées par Google
- Optimisez pour Google ET les autres moteurs de recherche
A titre d’exemple, Bing4 supporte la directive crawl-delay😉.
Références
- Update your robots.txt file, Google Search Central. Consulté le 15 octobre 2024. ↩︎
- Introduction to robots.txt, Google Search Central. Consulté le 15 octobre 2024. ↩︎
- Google Updates Robots.txt Policy: Unsupported Fields Are Ignored, Search Engine Journal. Publié le 07 octobre 2024. Consulté le 15 octobre 2024. ↩︎
- Goossips SEO : fichier robots.txt, Abondance. Publié le 15 octobre 2024. Consulté le 15 octobre 2024. ↩︎