Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin)


Nous poursuivons notre tour d’horizon des théories en lice, pour nous demander finalement quelles sont les explications les plus probables.

Revenir à la première partie de l’article :

Quelques pistes pour comprendre le nouvel algorithme de Google

La sémantique et la technologie CIRCA

Google dans ses débuts, utilisait peu d’outils sémantiques, à part les outils statistiques classiques (modèle vectoriel de Stanton pour mesurer le poids des mots clés dans une page). Les technologies de recherche d’information s’appuyant sur la sémantique ont pourtant fait des progrès très importants ces dernières années. Par ailleurs, Google a racheté deux sociétés spécialisées dans ce domaine : Outride en 2002 (technologie de recherche contextuelle et personalisée) et Applied Semantics en avril 2003.

Beaucoup d’observateurs s’attendaient donc à ce que les technologies d’Outride, et surtout celles d’Applied Semantics (CIRCA), soient utilisées par le moteur Google.

La technologie CIRCA a bel et bien été très vite utilisée, mais visiblement d’abord pour l’utilisation qui avait déjà été finalisée par les ingénieurs d’Applied Semantics : les annonces contextuelles (le programme AdWords). Le développement des annonces contextuelles sur des sites d’autres éditeurs (programme Adsense) n’est qu’une application directement dérivée de CIRCA.

Néanmoins, certains se sont demandé si par hasard, Google n’utilisait pas aussi l’ontologie de CIRCA (plusieurs millions de lemmes) pour « évaluer » le contenu des pages et leur degré de proximité par rapport à certaines thématiques…

D’autres ont reconnu les effets du « stemming » (la lemmatisation) [1]

Il est certain que Google utilise le stemming sur un certain nombre de requêtes depuis octobre 2003. Mais les pages de résultats post Florida ne sont pas les conséquences directes de l’impact de la lemmatisation.

Le pagerank thématique

Dan Thies (sur les forums HighRankings, et SearchEnginewatch) a expliqué les résultats post Florida par l’implémentation du « Topic Sensitive Pagerank » (Pagerank sensible au sujet). Le Topic Sensitive Pagerank est un algorithme très ressemblant à Hilltop dans ses principes. Il a été développé par des chercheurs de l’Université de Stanford, qui ont fondé une société baptisée Kaltix en juin 2003, rachetée par Google en septembre 2003.

Dan Thies a émis une théorie selon laquelle les changements de Google étaient explicables par l’utilisation de trois technologies nouvelles en même temps :
- la sémantique avec la technologie CIRCA (voir plus loin)
- le TPSR (Topic Sensitive PageRank)
- et l’exploitation des données « clickthrough », le tracking des clics sur les liens des pages de résultat.

Dan Thies privilégiait néanmoins, parmi ces trois facteurs, le TPSR pour expliquer la plupart des changements observés.

Les explications les plus probables

Il faut être très prudent, car l’analyse des évolutions du fonctionnement de Google est plus une exégèse qu’un vrai travail scientifique, et tout cela relève de spéculations plus ou moins fondées.

Google a-t-il changé sa manière de crawler les sites ?
Oui, c’est clair, Googlebot a changé, est devenu plus sophistiqué, et travaille maintenant sur un index ouvert.

Google a-t-il changé sa manière de calculer le pagerank ?
C’est également sûr à mon avis, il semble qu’il soit devenu capable de calculer le pagerank très rapidement maintenant (c’est indispensable pour réaliser l’indexation permanente que nous observons maintenant)

On ne connaît qu’une seule technologie capable d’améliorer le calcul du pagerank à ce point : celle de Kaltix.

Les ingénieurs de Kaltix ont inventé trois outils redoutables qui permettent, (selon les dires mêmes de Google), de calculer le PR au moins cinq fois plus vite :
- le blockrank
- le pagerank adaptatif
- l’extrapolation quadratique

D’autres méthodes existent peut-être, mais aucune info n’a filtré. La technologie Kaltix est donc le meilleur candidat que nous ayions.

Avons-nous des preuves que Google utilise le blockrank ?
Non !
Par contre, nous avons des preuves que Google sait calculer des Topic Sensitive Pagerank (encore une technologie Kaltix), car on observe deux applications directes de cet algorithme dans Google Labs :
Personalized Web Search
SiteFlavored Search

Dans les deux cas, les pages sont watermarkées « Kaltix » !

Or le calcul des TPSR bute sur un problème bien connu des spécialistes des algorithmes basés sur les structures de liens : c’est que la « topic distillation », (la distillation de sujet) demande d’énormes calculs… Dans le cas d’Hilltop, le problème n’était pas résolu : l’algo n’était pas utilisable. L’invention du localrank deux ans plus tard a partiellement résolu le problème. Mais l’algo du blockrank, utilisé pour calculer des TPSR, est beaucoup plus performant que le localrank…

C’est pour cela que je pense que :
- la « topic distillation » explique les changements de classement intervenus fin 2003. Ceux qui ont reconnu Hilltop sont probablement proches de la vérité. Ceux qui ont reconnu le TPSR de Kaltix sont probablement encore plus proches de la vérité. Mais peut-être s’agit-il d’un autre algo cousin, élaboré à partir des technologies que possède déjà Google.

Y’a-t-il de la sémantique dans Google ?

Peut-être … Le problème c’est que l’impact d’un critère sémantique noyé dans les autres critères « inpage » et « offpage » peut-être totalement indécelable.

Une chose est certaine : Google dispose des technologies nécessaires.

Quelle évolution attendre ? Quelles conséquences prévoir ?

Google est confronté à une concurrence de plus en plus rude… Sa suprématie risque d’être sérieusement contestée, à moins que la firme de Mountain Valley ne soit capable de garder une avance technologique en améliorant la pertinence de son moteur.

La bataille aura probablement lieu sur plusieurs fronts à la fois.

Comprendre la requête de l’internaute :

S’il cherche des infos sur l’animal jaguar, il ne faut pas renvoyer à l’internaute des infos sur les concessionaires jaguar ! Cela passe, soit par la création d’un profil utilisateur, soit par une observation du contexte de la requête (enregistrement des requêtes précédentes de l’internaute et de son comportement).

Dans les deux cas, cela pose des problèmes sensibles de protection de la vie privée. Les réactions hostiles par rapport à gmail démontrent que cet aspect est devenu critique pour Google, compte tenu de leur position. Microsoft cherche dans cette direction, et des projets très ambitieux sont en préparation. Je pense que Microsoft a un avantage paradoxal dans ce domaine, car la société de Bill Gates, compte tenu de sa réputation, peut assumer sans vergogne un nouveau système de tracking comportemental, tandis que Google ne peut pas le faire sans diminuer son capital sympathie.
Ceci explique sans doute pourquoi Google, qui dispose déjà de la technologie nécessaire, ne l’a pas encore fait.

Vers la recherche globale

L’avenir est probablement vers des outils de recherche capables d’indexer et de chercher aussi bien sur le world wide web que dans les données de l’utilisateur : sites favoris, sources habituelles, documents créés par l’utilisateur, mails etc…

MSN prépare des outils de ce type, Google aussi…

Ne plus renvoyer des pages de résultats, mais les bons résultats

Yahoo, Google ou MSN ont un défaut : sur une requête donnée, ils renvoient des centaines, des milliers, voire des millions de pages… Certes, l’internaute ne voit que les premières pages de résultats, mais il doit choisir lui même celles qui correspondent vraiment à son choix, et puis ensuite, trouver l’info cherchée à l’intérieur.

L’étape suivante consistera à :
- comprendre la requête de l’internaute, éventuellement formulée en langage naturel « quel est le nom scientifique du papillon ? »
- et donner la réponse, pas un lot de pages « selon le site du quid, le papillon est de la famille des lépidoptères ».

Bon c’est pas pour demain, mais on peut imaginer que face à la pression concurrentielle, une partie de ces utopies soient explorées par les moteurs de recherche grand public.

Face à cette évolution permanente, seul un référencement « naturel » est à préconiser

Conclusion : on n’a pas fini d’observer des évolutions sur le moteur Google, surtout si la firme fondée par Brin et Page décide de répondre coup pour coup à ses concurrents.

Dans ces conditions, il est clair qu’une connaissance approfondie des mécanismes d’indexation et des algorithmes utilisés n’apporte qu’un avantage très relatif pour obtenir un bon référencement… Il est fort probable que toutes les évolutions futures vont rendre moins efficaces et plus sensibles aux changement d’algorithme (donc plus dangereuses) les méthodes d’optimisation les moins subtiles (cloaking, pages satellites, keyword stuffing, contenus artificiels etc…) [2]

La priorité doit donc être d’optimiser ses pages sans forcément chercher à « coller » à un algo particulier, et on a plus de chances de toucher juste. En clair, réaliser un « reverse engineering » complet d’un moteur est une utopie, on ne saura jamais donc parfaitement « optimiser » une page pour un moteur. C’est en cela que le référencement est autant un art qu’une science. Par contre, on sait parfaitement ce qui est, pour la plupart des moteurs un site « pertinent » sur une requête : c’est ce qui serait perçu comme pertinent par la plupart des internautes.

Philippe YONNET

Bibliographie et liens utiles :
Désolé, la plupart de ces articles sont en anglais…
La théorie Hilltop et localrank selon Phil Craven
Discussion entre Phil Craven et Dan Thies sur leurs théories respectives
Article de Gord HotchsKiss : théorie de la technologie CIRCA
Nouvel article de Gord Hotchskiss : Florida un mois plus tard (utilisation du tracking des clics)

Sur le pagerank (articles et traductions d’articles par Dan Hetzel)
L’algorithme du PageRank expliqué
L’algorithme du PageRank expliqué – 2ème partie
Le PageRank par l’exemple

Sur Kaltix, le blockrank et le TPSR :
Vers un moteur de recherche sensible au contexte (1ère partie)
Vers un moteur de recherche sensible au contexte (2ème partie)
Vers un moteur de recherche sensible au contexte (3ème partie)

Sur les techniques d’indexation :
Les techniques évoluées d’indexation dans les moteurs de recherche
Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie)


[1] la lemmatisation est une technique d’extension de requête, qui permet, si on cherche chevaux, de reconnaître la racine « cheval », et de chercher aussi cheval, chevalin, chevaline, voire chevalier. Une ontologie permet d’étendre la recherche à des termes ayant des racines différentes, mais un sens proche : équin, équestre, jument par exemple

[2] je parle à l’horizon douze mois minimum, car pour l’instant, ces techniques marchent parfaitement. Google et Yahoo doivent considérer que la pollution actuelle de leur index est acceptable, car parfaitement tolérée par la majorité des internautes. Il n’y aura probablement de changements dans ce domaine qu’avec l’apparition de nouveaux concepts de recherche d’information, qui existent déjà sur le papier, mais qui ne risquent pas de supplanter les moteurs de recherche traditionnels avant plusieurs années