Google leaks: Les secrets de l'algorithme de classement

Google leaks: Les secrets de l’algorithme de classement rendus publics

Dernière mise à jour : 31 mai 2024 16h17

De David Licoppe 31 May 2024 9 min de lecture

9 min de lecture

Les secrets de l’algorithme Google révélés : 2500 pages de documents divulgués exposent les pratiques internes

2500 pages¹ de documents secrets de Google sont désormais publiquement accessibles. A l’origine de ce qui ressemble à un désastre interne pour la firme de Mountain View, une source anonyme. Rand Fishkin, ex-fondateur de Moz et fondateur de SparkToro, a été contacté directement pour des confessions exclusives.

Dans cet article, vous découvrirez l’essentiel des informations à connaître concernant l’algorithme de recherche de Google.

Sommaire

Les secrets de l’algorithme Google révélés : 2500 pages de documents divulgués exposent les pratiques internes Comment la fuite des documents a-t-elle été possible ?Quelles sont les informations essentielles de l’algorithme de Google qui ont fuité ?Comment a réagi Google ?Google passe par le feu et par l’eau en ce moment

Comment la fuite des documents a-t-elle été possible ?

Comme à la poste, pourrions-nous dire. En effet, Rand Fishkin est contacté par email le 05 mai dernier par un anonyme. Celui-ci affirme posséder des milliers de documents qui mettent en lumière les pratiques internes de Google, et attestés par d’anciens employés de la firme.

Après vérification, Rand Fishkin apprend que lesdits documents sont apparemment issus du Content API Warehouse de Google. Le code a été téléchargé sur GitHub le 27 mars dernier et supprimé le 07 mai. Rand Fishkin et Mike King décident de divulguer l’information. Le premier qualifiant de “mensonges” les déclarations officielles de Google sur son algorithme, après avoir examiné les documents.

Quelles sont les informations essentielles de l’algorithme de Google qui ont fuité ?

Nous en avons dénombré 14 essentielles² :

Navboost
Le bac à sable (Sandbox)
L’usage de Chrome
Le déclassement des sites
La pondération des liens
La longueur des pages
Les listes blanches
La datation du contenu
Les quality raters
“Baby Panda”
Les auteurs de contenu
Le contenu YMYL
L’autorité de domaine
Les liens

Navboost

Navboost récolte plusieurs données :

La distinction entre les clics réputés fiables ou d’excellente qualité (non écrasés) et ceux qui ne le sont pas (écrasés)
Le nombre global de clics pour une recherche
Les clics courts comparés aux clics long (selon la durée de visite du site avant le retour dans les SERP)

Le bac à sable (Sandbox)

Le Sandbox est censé séparer les sites selon leur absence de signal de confiance ou leur âge. Même si jusque-là Google a affirmé s’en passer, les documents semblent prouver le contraire.

Le module PerDocData présente l’attribut hostAge, qui isole les nouveaux sites en vue de prévenir le spam. C’est une piste pointant vers l’existence d’un Sandbox.

L’usage de Chrome

Google utilise les clics du navigateur pour améliorer ses résultats dans la recherche. Il utilise également le nombre de clics sur les pages des navigateurs pour peaufiner ses sitelinks.

En définitive, Chrome est une forme d’éponge, constituée pour absorber les données de clics.

Le déclassement des sites

Le déclassement ou la rétrogradation des sites sont de plusieurs formes :

La pornographie
Le facteur Exact Match Domains
Les ancres incompatibles
La mauvaise expérience utilisateur (UX)
Les pages globales
La dégradation des SERP

La pondération des liens

Les liens sont classés en 3 groupes par Google :

Les liens de basse qualité : Ils sont ignorés. Ainsi ils n’impactent pas le classement.
Les liens moyens : Au cas par cas
Les liens de haute qualité : Google diffuse le PageRank

Pour affecter un document à un niveau d’index, Google s’appuie sur les données de clics.

La longueur des pages

Plus les éléments importants de votre page sont en haut, mieux ils sont pris en compte. En effet, les tokens de prise en compte dans Mustang sont limités.

Bon à savoir : On ignore encore le nombre exact de tokens pris en charge.

Les listes blanches

Google utilise des listes blanches afin de réduire la marge d’erreur pour certains sujets sensibles dans la recherche. Ce sont :

Les autorités locales
La Covid19
Les élections
Les sites de voyage, etc.

La datation du contenu

Google détecte et pénalise la modification anarchique des dates des pages web. Il se sert de plusieurs éléments de vérification, notamment :

bylineDate
syntacticDate
semanticDate
La date de l’URL
Le titre
Le contenu

Le classement de la page dépendra de sa cohérence.

Les quality raters

Google utilise EWOK, une plateforme d’évaluation de la qualité. Certains éléments des quality raters, tels que les données générées et les scores, peuvent être utilisés directement dans le système de recherche.

“Baby Panda”

Les documents révèlent un Baby Panda, complémentaire de Panda. Il intervient juste après le classement initial, mais on ignore son fonctionnement exact.

Les auteurs de contenu

Avec son système Authorship, Google identifie et traite les auteurs des contenus comme des entités à part entière. Par conséquent, les auteurs sont encouragés à renforcer leur influence pour améliorer leur référencement.

Le contenu YMYL

YMYL est un acronyme pour Your Money Your Life. Des codes spécifiques sont affectés aux YMYL santé et YMYL News.

Prédictifs, ils interviennent également pour les requêtes nouvelles et les requêtes peu fréquentes. Ces sujets sont considérés comme sensibles pour la qualité par Google.

L’autorité de domaine

Contrairement à ses affirmations publiques, Google utilise bel et bien un facteur de classement (Q) dénommé SiteAuthority pour évaluer l’autorité de domaine (Domain Authority). Le fonctionnement de ce facteur reste cependant mystérieux.

Les liens

Les liens préservent leur importance pour Google :

Leur valeur dépend de la confiance accordée à votre page d’accueil
Google ne tient compte que des 20 modifications les plus récentes pour l’analyse des liens
Leur impact dépend du niveau d’indexation des pages vers lesquelles ils pointent (les pages sources)
Quel que soit le PageRank de la page d’accueil, il affecte toutes les autres pages du site

Comment a réagi Google ?

Google a confirmé l’authenticité des documents auprès de The Verge. Cependant, l’entreprise met en garde contre un usage trop enthousiaste de ces données, dont certaines auront servi uniquement à motif didactique pour le personnel. D’autres sont tout simplement obsolètes :

[Un devoir de réserve] contre les hypothèses inexactes sur la recherche basées sur des informations sorties de leur contexte, obsolètes ou incomplètes
Google

Simultanément, Google propose un discours rassurant, en affirmant qu’il n’y a rien à cacher :

Nous avons partagé de nombreuses informations sur le fonctionnement de la recherche et sur les types de facteurs pris en compte par nos systèmes, tout en œuvrant à protéger l’intégrité de nos résultats contre toute manipulation³.
Google

La sérénité de Google contraste avec la célébration des spécialistes du numérique et la colère de certains observateurs. Ces derniers estiment qu’il existe une nette distinction entre les dires et la pratique⁴ chez Google.

Google passe par le feu et par l’eau en ce moment

Cette fuite d’informations offre non seulement une vue directe sur les coulisses de la firme, mais questionne également la sécurité en ligne sous un nouvel angle.

De nombreux éléments des documents contredisent les affirmations publiques de Google
Il y a 3 niveaux d’évaluation des SERP
Navboost, les clics et le comportement de l’utilisateur affectent directement le classement
Des listes blanches sont appliquées aux sujets sensibles

La bombe lancée dans la sphère SEO laissera des traces de jubilation durables parmi les experts, qui guettent la moindre faille de l’algorithme de Google. Mais côté Google, qui doit également affronter un procès sur ses pratiques internes, l’adage s’applique qui affirme : “un malheur ne vient jamais seul.”

Références