|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin)
Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin)Théories, spéculations et certitudes20 juillet 2004, par Cariboo
Revenir à la première partie de l’article :
La sémantique et la technologie CIRCA Google dans ses débuts, utilisait peu d’outils sémantiques, à part les outils statistiques classiques (modèle vectoriel de Stanton pour mesurer le poids des mots clés dans une page). Les technologies de recherche d’information s’appuyant sur la sémantique ont pourtant fait des progrès très importants ces dernières années. Par ailleurs, Google a racheté deux sociétés spécialisées dans ce domaine : Outride en 2002 (technologie de recherche contextuelle et personalisée) et Applied Semantics en avril 2003. Beaucoup d’observateurs s’attendaient donc à ce que les technologies d’Outride, et surtout celles d’Applied Semantics (CIRCA), soient utilisées par le moteur Google. La technologie CIRCA a bel et bien été très vite utilisée, mais visiblement d’abord pour l’utilisation qui avait déjà été finalisée par les ingénieurs d’Applied Semantics : les annonces contextuelles (le programme AdWords). Le développement des annonces contextuelles sur des sites d’autres éditeurs (programme Adsense) n’est qu’une application directement dérivée de CIRCA. Néanmoins, certains se sont demandé si par hasard, Google n’utilisait pas aussi l’ontologie de CIRCA (plusieurs millions de lemmes) pour "évaluer" le contenu des pages et leur degré de proximité par rapport à certaines thématiques... D’autres ont reconnu les effets du "stemming" (la lemmatisation) [1] Il est certain que Google utilise le stemming sur un certain nombre de requêtes depuis octobre 2003. Mais les pages de résultats post Florida ne sont pas les conséquences directes de l’impact de la lemmatisation. Le pagerank thématique Dan Thies (sur les forums HighRankings, et SearchEnginewatch) a expliqué les résultats post Florida par l’implémentation du "Topic Sensitive Pagerank" (Pagerank sensible au sujet). Le Topic Sensitive Pagerank est un algorithme très ressemblant à Hilltop dans ses principes. Il a été développé par des chercheurs de l’Université de Stanford, qui ont fondé une société baptisée Kaltix en juin 2003, rachetée par Google en septembre 2003. Dan Thies a émis une théorie selon laquelle les changements de Google étaient explicables par l’utilisation de trois technologies nouvelles en même temps :
Dan Thies privilégiait néanmoins, parmi ces trois facteurs, le TPSR pour expliquer la plupart des changements observés. Les explications les plus probablesIl faut être très prudent, car l’analyse des évolutions du fonctionnement de Google est plus une exégèse qu’un vrai travail scientifique, et tout cela relève de spéculations plus ou moins fondées. Google a-t-il changé sa manière de crawler les sites ?
Google a-t-il changé sa manière de calculer le pagerank ?
On ne connaît qu’une seule technologie capable d’améliorer le calcul du pagerank à ce point : celle de Kaltix.
Les ingénieurs de Kaltix ont inventé trois outils redoutables qui permettent, (selon les dires mêmes de Google), de calculer le PR au moins cinq fois plus vite :
D’autres méthodes existent peut-être, mais aucune info n’a filtré. La technologie Kaltix est donc le meilleur candidat que nous ayions. Avons-nous des preuves que Google utilise le blockrank ? Non ! Par contre, nous avons des preuves que Google sait calculer des Topic Sensitive Pagerank (encore une technologie Kaltix), car on observe deux applications directes de cet algorithme dans Google Labs : Personalized Web Search SiteFlavored Search Dans les deux cas, les pages sont watermarkées "Kaltix" ! Or le calcul des TPSR bute sur un problème bien connu des spécialistes des algorithmes basés sur les structures de liens : c’est que la "topic distillation", (la distillation de sujet) demande d’énormes calculs... Dans le cas d’Hilltop, le problème n’était pas résolu : l’algo n’était pas utilisable. L’invention du localrank deux ans plus tard a partiellement résolu le problème. Mais l’algo du blockrank, utilisé pour calculer des TPSR, est beaucoup plus performant que le localrank... C’est pour cela que je pense que :
Y’a-t-il de la sémantique dans Google ? Peut-être ... Le problème c’est que l’impact d’un critère sémantique noyé dans les autres critères "inpage" et "offpage" peut-être totalement indécelable. Une chose est certaine : Google dispose des technologies nécessaires. Quelle évolution attendre ? Quelles conséquences prévoir ?Google est confronté à une concurrence de plus en plus rude... Sa suprématie risque d’être sérieusement contestée, à moins que la firme de Mountain Valley ne soit capable de garder une avance technologique en améliorant la pertinence de son moteur. La bataille aura probablement lieu sur plusieurs fronts à la fois. Comprendre la requête de l’internaute : S’il cherche des infos sur l’animal jaguar, il ne faut pas renvoyer à l’internaute des infos sur les concessionaires jaguar ! Cela passe, soit par la création d’un profil utilisateur, soit par une observation du contexte de la requête (enregistrement des requêtes précédentes de l’internaute et de son comportement). Dans les deux cas, cela pose des problèmes sensibles de protection de la vie privée. Les réactions hostiles par rapport à gmail démontrent que cet aspect est devenu critique pour Google, compte tenu de leur position. Microsoft cherche dans cette direction, et des projets très ambitieux sont en préparation. Je pense que Microsoft a un avantage paradoxal dans ce domaine, car la société de Bill Gates, compte tenu de sa réputation, peut assumer sans vergogne un nouveau système de tracking comportemental, tandis que Google ne peut pas le faire sans diminuer son capital sympathie.
Vers la recherche globale L’avenir est probablement vers des outils de recherche capables d’indexer et de chercher aussi bien sur le world wide web que dans les données de l’utilisateur : sites favoris, sources habituelles, documents créés par l’utilisateur, mails etc... MSN prépare des outils de ce type, Google aussi... Ne plus renvoyer des pages de résultats, mais les bons résultats Yahoo, Google ou MSN ont un défaut : sur une requête donnée, ils renvoient des centaines, des milliers, voire des millions de pages... Certes, l’internaute ne voit que les premières pages de résultats, mais il doit choisir lui même celles qui correspondent vraiment à son choix, et puis ensuite, trouver l’info cherchée à l’intérieur. L’étape suivante consistera à :
Bon c’est pas pour demain, mais on peut imaginer que face à la pression concurrentielle, une partie de ces utopies soient explorées par les moteurs de recherche grand public. Face à cette évolution permanente, seul un référencement "naturel" est à préconiserConclusion : on n’a pas fini d’observer des évolutions sur le moteur Google, surtout si la firme fondée par Brin et Page décide de répondre coup pour coup à ses concurrents. Dans ces conditions, il est clair qu’une connaissance approfondie des mécanismes d’indexation et des algorithmes utilisés n’apporte qu’un avantage très relatif pour obtenir un bon référencement... Il est fort probable que toutes les évolutions futures vont rendre moins efficaces et plus sensibles aux changement d’algorithme (donc plus dangereuses) les méthodes d’optimisation les moins subtiles (cloaking, pages satellites, keyword stuffing, contenus artificiels etc...) [2] La priorité doit donc être d’optimiser ses pages sans forcément chercher à "coller" à un algo particulier, et on a plus de chances de toucher juste. En clair, réaliser un "reverse engineering" complet d’un moteur est une utopie, on ne saura jamais donc parfaitement "optimiser" une page pour un moteur. C’est en cela que le référencement est autant un art qu’une science. Par contre, on sait parfaitement ce qui est, pour la plupart des moteurs un site "pertinent" sur une requête : c’est ce qui serait perçu comme pertinent par la plupart des internautes. Philippe YONNET Bibliographie et liens utiles :
Désolé, la plupart de ces articles sont en anglais...
Sur le pagerank (articles et traductions d’articles par Dan Hetzel)
Sur Kaltix, le blockrank et le TPSR :
Sur les techniques d’indexation :
[1] la lemmatisation est une technique d’extension de requête, qui permet, si on cherche chevaux, de reconnaître la racine "cheval", et de chercher aussi cheval, chevalin, chevaline, voire chevalier. Une ontologie permet d’étendre la recherche à des termes ayant des racines différentes, mais un sens proche : équin, équestre, jument par exemple [2] je parle à l’horizon douze mois minimum, car pour l’instant, ces techniques marchent parfaitement. Google et Yahoo doivent considérer que la pollution actuelle de leur index est acceptable, car parfaitement tolérée par la majorité des internautes. Il n’y aura probablement de changements dans ce domaine qu’avec l’apparition de nouveaux concepts de recherche d’information, qui existent déjà sur le papier, mais qui ne risquent pas de supplanter les moteurs de recherche traditionnels avant plusieurs années |
|
||
|