Quelques pistes pour comprendre le nouvel algorithme de Google

Google a profondément modifié le fonctionnement de son moteur de recherche. Ces changements ont été opérés progressivement à partir du printemps 2003 (Googledance baptisée Dominic [1]), déclenchant de nombreuses controverses et la perplexité des sociétés de référencement. Les changements qui ont fait couler le plus d’encre sont ceux qui ont été constatés en novembre 2003, à l’occasion de la « dance » baptisée Florida…

Depuis, de nombreuses hypothèses, plus ou moins crédibles ont été avancées pour « expliquer » le nouveau comportement de Google. La firme de Mountain Valley a tout intérêt à garder un secret absolu sur son algorithme de classement, à la fois pour éviter de faciliter la tâche de ses concurrents, mais aussi (et surtout) pour gêner le développement du spamdexing [2]

Néanmoins, avec le recul, on commence à avoir quelques indices sur le nouveau fonctionnement du moteur et sur son évolution à venir. Il est donc intéressant de faire le point sur ce que l’on sait, sur ce que l’on suppute, et sur les interrogations qui demeurent à propos de l’algorithme et des méthodes d’indexation du nouveau Google.

UN POINT SUR LES CHANGEMENTS OBSERVES DEPUIS LE PRINTEMPS 2003

Rappel du fonctionnement passé de Google

Google, par le passé, gérait une mise à jour cyclique, chaque cycle durant à peu près un mois. Les cycles se déroulaient selon les étapes principales suivantes :
- le deepcrawl (indexation profonde) : le robot (spider) d’indexation de Google visite les sites qui sont recensés dans sa base d’indexation, et en « aspire » toutes les pages [3]. Cette phase dure une semaine à dix jours
- le calcul des « notes » des pages (en fonction des critères habituels sur le contenu et le texte des liens) et le calcul du pagerank. Cette phase (que personne n’a jamais observée en dehors de Google) durait probablement également plusieurs jours.
- la « dance » : le nouvel index est « créé » sur un datacenter, puis les données sont répliquées sur les autres datacenters. A cette occasion, sont ajoutés de nouveaux filtres, soit avant, soit pendant la dance. Le nouvel index est stabilisé en quelques jours.

L’un des effets de ces mises à jours cycliques, était que l’index était figé pendant plusieurs semaines. De plus, si une page était ajoutée le lendemain du passage du deepcrawler, elle risquait de n’apparaître dans l’index que dans un délai de huit à dix semaines. Pour permettre à de nouvelles pages de s’intégrer dans l’index, Google a mis en place un système d’indexation temporaire, le freshcrawl :
- entre deux dances, un « freshbot » vient repérer les pages nouvelles dans les sites déjà indexés
- ces pages sont ajoutées à l’index, mais n’ont pas de pagerank
- par contre, elles ont une « note » artificiellement gonflée, qui les fait apparaître dans les premières places des pages de résultats (c’est ce que les référenceurs appelaient la « prime de fraîcheur ».

Mais aujourd’hui tout a changé !!

Le fonctionnement actuel de Google

Les changements constatés dans le fonctionnement du moteur concernent essentiellement trois domaines :
- le comportement du spider Googlebot
- les mises à jour fréquentes et quasi continues
- l’algorithme de classement

Le comportement du spider Googlebot

Fini les deux familles de robots « deepbot » et « freshbot », il n’y a plus qu’un seul spider : le Googlebot, chargé de toutes les tâches, qu’il s’agisse d’une première indexation, ou de mises à jour. Son comportement a changé : sa fréquence de passage est devenue très variée en fonction des sites. Par ailleurs, il a muté en un « browser » beaucoup plus évolué maintenant : on pouvait comparer jadis ce que voyait un deepbot à une page vue avec Lynx, mais aujourd’hui, il peut suivre des liens en javascript, et prendre en compte beaucoup plus de balises qu’autrefois.

On peut dire que le comportement de ce robot est devenu typique des spiders chargés de tenir à jour des index de type ouvert (indexation permanente : les spiders n’indexent plus une liste de sites du premier au dernier, ils crawlent sans jamais avoir fini de mettre à jour l’index, en choisissant les sites à indexer par ordre de priorité. On se référera aussi à cet article :Les techniques évoluées d’indexation dans les moteurs de recherche).

Ce Googlebot unique est aussi maintenant accompagné de « cousins », chargés d’indexer les pages pour les nouveaux services ouverts par Google, et notamment :
- le robot de Googlenews
- le robot du système AdSense

Les mises à jour fréquentes et quasi continuelles

L’augmentation de la fréquence des mises à jour a été constatée pour la première fois en septembre 2003 : deux dances en un seul mois !! Depuis, il s’est confirmé que le cycle mensuel avait été abandonné au profit de mises à jour beaucoup plus fréquentes.
Le nouveau système de mise à jour de l’index a dérouté pas mal de référenceurs et de webmasters, car il semble avoir beaucoup évolué au cours des derniers mois. En fait, à l’heure actuelle, il semble que plusieurs phénomènes se superposent :
- l’indexation de nouvelles pages est permanente : les pages non présentes précédemment dans l’index et « ramenées » par Googlebot apparaissent rapidement dans les pages de résultats, avec un classement proche de leur classement définitif. Plus de prime de fraîcheur pour ces pages.
- des mises à jour partielles ont lieu régulièrement
- des mises à jour plus profondes ont lieu de temps à autre (toutes les deux semaines : périodicité difficile à déterminer à cause du manque de recul)
- la mise à jour des backlinks et des pageranks visibles dans la googlebar a lieu plus fréquemment qu’avant (toutes les deux à trois semaines), par contre ces « googledance » ont pris un tour étrange, car elles ne s’accompagnent pas toujours de changements dans les pages de résultats (comme si cette mise à jour reflétait des changements déjà intervenus dans l’index)

Les changements dans l’algorithme de classement
C’est sans doute le changement qui a été le plus remarqué, car il a conduit à la chute dans les profondeurs du classement de nombreux sites qui squattaient les premières positions depuis des mois, voire des années… Le changement d’algorithme a été graduel entre mars 2003 et aujourd’hui, avec un « pic » spectaculaire en novembre 2003, à l’occasion de la dance appelée Florida, dont les effets dévastateurs pour certains sites ont sérieusement inquiété les webmasters et (surtout) les référenceurs professionnels [4].

Ces changements ont affecté surtout :
- les pages présentes dans les résultats sur des requêtes commerciales ou très concurentielles
- les pages « suroptimisées » (souvent des sites référencés par des référenceurs professionnels, d’où leur désarroi)


Ce changement d’algorithme avait encore rendu plus perplexes les référenceurs, quand ils se sont rendus compte que les principaux changements de classement résultaient d’un filtre appliqué en temps réel [5] ! Comment diable Google avait-il pu élaborer un tel filtre, capable d’éliminer sélectivement certaines pages et pas d’autres, sans que la plupart ne discernent une logique dans ces choix ? [6] de Krishna Bharat. Les travaux de Bharat ont fait l’objet d’une publication remarquée en 2000, et Google, qui supportait le projet de recherche Hilltop, a embauché peu après le chercheur. Une version améliorée de l’algorithme a fait l’objet d’un dépôt de brevet en 2001, brevet dans lequel apparaissent les termes de localrank et de localscore.
Depuis, black out, rien n’a jamais filtré en provenance de Google à propos d’une éventuelle utilisation de cette technologie.

Hilltop travaille à partir d’un jeu réduit de pages désignées comme « expertes » dans un domaine donné [7]. Il s’agit de pages appartenant à des sites faisant autorité sur une thématique et contenant des liens vers d’autres sites du même domaine.
L’algorithme évalue la popularité des sites en donnant plus de poids à des liens émanant de sites faisant autorité dans un domaine donné, qu’à un site qui ne se situe pas dans le même domaine. Cela aboutit à la création d’une série de « notes » pour chaque page, à raison d’une note par thématique isolée. La « note » est baptisée « localscore » et l’algorithme qui calcule cette note dans une thématique donnée : localrank.

Hilltop change parfois de manière spectaculaire le classement des sites dans les pages de résultats : les sites qui ne possèdent pas de liens en provenance de sites autorité plongent dans les profondeurs du classement.

La théorie selon laquelle Hilltop a été utilisé par Google à partir de la Florida dance a eu un succès certain sur les forums anglo-saxons. Elle a été lancée par un anglais, Phil Craven, et a été popularisée sur de nombreux forums américains, notamment par Danny Sullivan et Allan Webb.

Cela a en général tourné au délire pseudo-scientifique, le summum ayant été atteint avec cette théorie :http://www.vaughns-1-pagers.com/goo… qui pourtant ne résiste pas aux premiers tests !

Le filtre bayesien

Les filtres bayesiens sont couramment utilisés dans les logiciels filtrant les spam mails. De quoi s’agit-il ?
Il s’agit d’un algorithme proche des algorithmes génétiques, qui « apprend » à reconnaître si un mail est du spam en fonction des choix effectués par l’utilisateur et sur la base d’un corpus de textes qui s’enrichit avec l’arrivée de nouveaux mails .

L’idée d’appliquer des algorithmes génétiques à un moteur de recherche n’est pas neuve, et a été expérimentée avec succès [8] mais sur des moteurs très spécialisés. L’avantage de ces méthodes est d’apprendre à l’indexeur si une page parle effectivement du sujet abordé par le moteur ou d’autre chose.

Utiliser un algorithme génétique (bayesien ou pas) pour éliminer des pages identifiables comme du spamdexing est loin d’être une idée idiote. Mais il suffit d’observer les pages de résultats de Google pour voir que soit le filtre est très médiocre, soit (c’est plus probable) qu’il n’y a pas de filtre antispam dans Google. [9]

L’utilisation des données sur le tracking des clics

Un certain nombre de spécialistes du référencement se sont demandé si Google n’avait pas décidé d’ajouter dans ses critères la « popularité » des liens dans les pages de résultats, comme dans certains moteurs anciens comme DirectHit, ou certains moteurs plus récents.

Le problème c’est que Google a toujours balayé l’idée d’utiliser un jour cette technique d’un revers de main, en assurant que cela n’avait selon eux aucun intérêt en matière de pertinence. Dont acte… [10]

La suite dans la deuxième partie de l’article :
Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin)

Philippe YONNET


[1] Pour les rookies de la Googlelogie, les « googledances » correspondaient jadis à des mises à jour complètes de l’index, qui se produisaient avec une périodicité à peu près mensuelle. Le terme « dance » décrivait le comportement « erratique » des pages de résultats pendant cette mise à jour, puisque le nouvel index se « propageait » de datacenter en datacenter, rendant les résultats changeants en fonction du datacenter qui fournissait la réponse.
A partir de 2002, les admins du forum américain WebmasterWorld ont décidé d’attribuer des noms aux Googledances, comme on le fait pour les cyclones (il est vrai que certaines dances ont fait autant de dégâts qu’une tornade, si l’on en croit les cris d’orfraie de certains webmasters ou référenceurs). Ces noms ont été repris et utilisés par toute la communauté du référencement.

[2] le « spamdexing », est la contraction de « spam indexing », que l’on peut traduire par « pollution de l’index ». Le spamdexing se manifeste par le « squattage » des premières positions par des pages ressenties comme non pertinentes, qu’elles soient le produit de la génération de pages dédiées au seul référencement (pages satellites notamment) ou même de la génération automatique de pages conçues pour être correctement indexées, mais sans contenu véritable, ou encore d’autres techniques ressenties comme déloyales. Notons que le niveau de pollution d’un index est quelque chose de subjectif, et qu’il y’a autant de définitions du spamdexing que de webmasters ou de référenceurs

[3] sauf pour les sites avec faible pagerank, ou nouveaux, pour lesquels la profondeur d’indexation était parfois limitée

[4] surtout les référenceurs US, anglais et allemands d’ailleurs… Il serait intéressant de se demander pourquoi les référenceurs français ont moins crié au scandale que les autres ?

[5] dans un moteur de recherche classique, la génération des pages de résultats se fait en temps réel, sauf sur certaines requêtes récemment entrées où un cache est utilisé (méthode employée par Google). Le classement des résultats dépend d’une évaluation (scoring) de la page en terme de « pertinence » par rapport à la requête. Ce scoring s’effectue à partir d’un certain nombre de critères, dont la plupart font l’objet d’un calcul préalable, pour alléger le travail à effectuer en temps réel. C’est notamment vrai pour le pagerank, qui est une note stockée avec la page dans l’index, mais aussi des données de l’index inversé par exemple. Avant d’être renvoyées à l’internaute, on applique en plus des « filtres » aux pages de résultats. Ces filtres sont de petits programmes, utilisés en temps réel lors de la génération de la page de résultats, et qui éliminent de celle-ci certains résultats jugés indésirables, ou changent le classement. Le « clustering » qui limite le nombre de pages renvoyées provenant d’un même site fait partie de ces filtres

[6] on peut encore aujourd’hui faire des tests sur le site http://www.scroogle.org]

La plupart des référenceurs professionnels ont eu une crise de paranoïa à l’époque, et ont cru reconnaître dans ce filtre, un filtre anti SEO (pages optimisées pour le référencement). Mais compte tenu du nombre de contre-exemples observables, la plupart ont vite abandonné cette hypothèse.

Les différentes théories en lice sur le nouvel algorithme de Google

Tous les gourous du référencement se sont sentis obligés, à partir de novembre 2003 et de la dance Florida, d’émettre une théorie sur ce que pouvait être ce « nouveau filtre ». Avec plus ou moins de bonheur, il faut bien le dire, car l’exercice, faute de « fuites » en provenance de Google, et de recul sur l’évènement, relevait plus de la divination que de l’approche scientifique.

Voici un exposé des principales théories…

Hilltop et le localrank

L’algorithme Hilltop est une innovation [[je ne crois pas que l’on puisse parler d’invention à ce sujet, car Hilltop n’est pas un algorithme très original, mais plutôt une tentative de concilier les logiques de HITS (hubs and authorities) et du pagerank

[7] Un article présentant plus complètement Hilltop et le localrank paraîtra prochainement sur webmaster-hub

[8] il semble d’ailleurs que les équipes de chercheurs français soient en pointe sur ce sujet…

[9] on n’a pas la place de le développer ici, mais créer des filtres antispam capables de détecter toutes les formes de spam n’est pas facile, en plus une page considérée comme « spammy » à un endroit peut être pertinente à une autre…

[10] De facto, le nombre de clics sur un lien dans une page de résultats ne permet pas d’être sûr de la pertinence d’une réponse à une requête. Par contre, si tout le monde clique sur le lien n°9, et pas les huit précédents, c’est quand même le signe que l’algo du moteur n’est pas bon en terme de pertinence sur cette requête. _ Il est clair que Google utilise au moins le « clickthrough tracking » pour « calibrer » ses réglages après tout changement d’algo.