Les secrets de l’algorithme Google révélés : 2500 pages de documents divulgués exposent les pratiques internes
2500 pages1 de documents secrets de Google sont désormais publiquement accessibles. A l’origine de ce qui ressemble à un désastre interne pour la firme de Mountain View, une source anonyme. Rand Fishkin, ex-fondateur de Moz et fondateur de SparkToro, a été contacté directement pour des confessions exclusives.
Dans cet article, vous découvrirez l’essentiel des informations à connaître concernant l’algorithme de recherche de Google.
Comment la fuite des documents a-t-elle été possible ?
Comme à la poste, pourrions-nous dire. En effet, Rand Fishkin est contacté par email le 05 mai dernier par un anonyme. Celui-ci affirme posséder des milliers de documents qui mettent en lumière les pratiques internes de Google, et attestés par d’anciens employés de la firme.
Après vérification, Rand Fishkin apprend que lesdits documents sont apparemment issus du Content API Warehouse de Google. Le code a été téléchargé sur GitHub le 27 mars dernier et supprimé le 07 mai. Rand Fishkin et Mike King décident de divulguer l’information. Le premier qualifiant de “mensonges” les déclarations officielles de Google sur son algorithme, après avoir examiné les documents.
Quelles sont les informations essentielles de l’algorithme de Google qui ont fuité ?
Nous en avons dénombré 14 essentielles2 :
- Navboost
- Le bac à sable (Sandbox)
- L’usage de Chrome
- Le déclassement des sites
- La pondération des liens
- La longueur des pages
- Les listes blanches
- La datation du contenu
- Les quality raters
- “Baby Panda”
- Les auteurs de contenu
- Le contenu YMYL
- L’autorité de domaine
- Les liens
Navboost
Navboost récolte plusieurs données :
- La distinction entre les clics réputés fiables ou d’excellente qualité (non écrasés) et ceux qui ne le sont pas (écrasés)
- Le nombre global de clics pour une recherche
- Les clics courts comparés aux clics long (selon la durée de visite du site avant le retour dans les SERP)
Le bac à sable (Sandbox)
Le Sandbox est censé séparer les sites selon leur absence de signal de confiance ou leur âge. Même si jusque-là Google a affirmé s’en passer, les documents semblent prouver le contraire.
Le module PerDocData présente l’attribut hostAge, qui isole les nouveaux sites en vue de prévenir le spam. C’est une piste pointant vers l’existence d’un Sandbox.
L’usage de Chrome
Google utilise les clics du navigateur pour améliorer ses résultats dans la recherche. Il utilise également le nombre de clics sur les pages des navigateurs pour peaufiner ses sitelinks.
En définitive, Chrome est une forme d’éponge, constituée pour absorber les données de clics.
Le déclassement des sites
Le déclassement ou la rétrogradation des sites sont de plusieurs formes :
- La pornographie
- Le facteur Exact Match Domains
- Les ancres incompatibles
- La mauvaise expérience utilisateur (UX)
- Les pages globales
- La dégradation des SERP
La pondération des liens
Les liens sont classés en 3 groupes par Google :
- Les liens de basse qualité : Ils sont ignorés. Ainsi ils n’impactent pas le classement.
- Les liens moyens : Au cas par cas
- Les liens de haute qualité : Google diffuse le PageRank
Pour affecter un document à un niveau d’index, Google s’appuie sur les données de clics.
La longueur des pages
Plus les éléments importants de votre page sont en haut, mieux ils sont pris en compte. En effet, les tokens de prise en compte dans Mustang sont limités.
Bon à savoir : On ignore encore le nombre exact de tokens pris en charge.
Les listes blanches
Google utilise des listes blanches afin de réduire la marge d’erreur pour certains sujets sensibles dans la recherche. Ce sont :
- Les autorités locales
- La Covid19
- Les élections
- Les sites de voyage, etc.
La datation du contenu
Google détecte et pénalise la modification anarchique des dates des pages web. Il se sert de plusieurs éléments de vérification, notamment :
- bylineDate
- syntacticDate
- semanticDate
- La date de l’URL
- Le titre
- Le contenu
Le classement de la page dépendra de sa cohérence.
Les quality raters
Google utilise EWOK, une plateforme d’évaluation de la qualité. Certains éléments des quality raters, tels que les données générées et les scores, peuvent être utilisés directement dans le système de recherche.
“Baby Panda”
Les documents révèlent un Baby Panda, complémentaire de Panda. Il intervient juste après le classement initial, mais on ignore son fonctionnement exact.
Les auteurs de contenu
Avec son système Authorship, Google identifie et traite les auteurs des contenus comme des entités à part entière. Par conséquent, les auteurs sont encouragés à renforcer leur influence pour améliorer leur référencement.
Le contenu YMYL
YMYL est un acronyme pour Your Money Your Life. Des codes spécifiques sont affectés aux YMYL santé et YMYL News.
Prédictifs, ils interviennent également pour les requêtes nouvelles et les requêtes peu fréquentes. Ces sujets sont considérés comme sensibles pour la qualité par Google.
L’autorité de domaine
Contrairement à ses affirmations publiques, Google utilise bel et bien un facteur de classement (Q) dénommé SiteAuthority pour évaluer l’autorité de domaine (Domain Authority). Le fonctionnement de ce facteur reste cependant mystérieux.
Les liens
Les liens préservent leur importance pour Google :
- Leur valeur dépend de la confiance accordée à votre page d’accueil
- Google ne tient compte que des 20 modifications les plus récentes pour l’analyse des liens
- Leur impact dépend du niveau d’indexation des pages vers lesquelles ils pointent (les pages sources)
- Quel que soit le PageRank de la page d’accueil, il affecte toutes les autres pages du site
Comment a réagi Google ?
Google a confirmé l’authenticité des documents auprès de The Verge. Cependant, l’entreprise met en garde contre un usage trop enthousiaste de ces données, dont certaines auront servi uniquement à motif didactique pour le personnel. D’autres sont tout simplement obsolètes :
Simultanément, Google propose un discours rassurant, en affirmant qu’il n’y a rien à cacher :
La sérénité de Google contraste avec la célébration des spécialistes du numérique et la colère de certains observateurs. Ces derniers estiment qu’il existe une nette distinction entre les dires et la pratique4 chez Google.
Google passe par le feu et par l’eau en ce moment
Cette fuite d’informations offre non seulement une vue directe sur les coulisses de la firme, mais questionne également la sécurité en ligne sous un nouvel angle.
- De nombreux éléments des documents contredisent les affirmations publiques de Google
- Il y a 3 niveaux d’évaluation des SERP
- Navboost, les clics et le comportement de l’utilisateur affectent directement le classement
- Des listes blanches sont appliquées aux sujets sensibles
La bombe lancée dans la sphère SEO laissera des traces de jubilation durables parmi les experts, qui guettent la moindre faille de l’algorithme de Google. Mais côté Google, qui doit également affronter un procès sur ses pratiques internes, l’adage s’applique qui affirme : “un malheur ne vient jamais seul.”
Références
- Google leak: Des milliers de documents internes révèlent les secrets de l’algorithme, Abondance. Publié le 28 mai 2024. Consulté le 30 mai 2024. ↩︎
- Post de Abondance, LinkedIn. Publié le 29 mai 2024. Consulté le 30 mai 2024. ↩︎
- « Google leaks » : une fuite révèle le fonctionnement de l’algorithme de Google, 01Net. Publié le 30 mai 2024. Consulté le 30 mai 2024. ↩︎
- Google won’t comment on a potentially massive leak of its search algorithm documentation, The Verge. Publié le 28 mai 2024. Consulté le 30 mai 2024. ↩︎