|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
Vers un moteur de recherche sensible au contexte (2ème partie)
Vers un moteur de recherche sensible au contexte (2ème partie)Les pistes pour calculer un PageRank personnalisé2 novembre 2003, par CaribooDans la première partie, nous avons évoqué les raisons qui ont fait le succès de l’algorithme du PageRank, mais aussi ses limitations. Les chercheurs de Stanford ont cherché des solutions pour dépasser les limitations des moteurs de recherche utilisant le PageRank. Ce sont ces pistes que nous allons détailler dans cette deuxième partie. Les différentes pistes pour calculer un PageRank PersonnaliséPage et Brin ont posé l’idée de créer un PageRank personnalisé dès la création du premier algorithme du PageRank. Mais leur idée était inapplicable dans la pratique : elle consistait à effectuer des calculs de pagerank à la volée au moment de la requête. Toutes les pistes explorées depuis partent toujours du principe suivant : réaliser les calculs complexes et qui demandent des temps de calcul important "offline". Stocker les résultats dans l’index, et limiter les calculs à effectuer lors de chaque requête à des opérations simples, qui peuvent être effectuées rapidement sans surutilisation du processeur. Un préalable nécessaire : accélérer la vitesse de convergence des algorithmes L’équipe des chercheurs de Stanford s’est vite rendu compte que l’accélération de la vitesse de convergence de l’algorithme du PageRank était indispensable pour progresser dans leurs recherches. En effet, toutes les méthodes explorées consistaient à calculer non pas un, mais des dizaines, voire des centaines de PageRank différents, sensibles au contexte. [1] Ces recherches ont abouti à trois solutions radicalement différentes
L’équipe qui a constitué Kaltix (Sepandar D. Kamvar Taher H. Haveliwala Christopher D. Manning Gene H. Golub), et qui travaille maintenant pour Google, est à l’origine des deux dernières approches. La première est l’oeuvre de Glen Jeh et Jennifer Widom. Le pagerank modulaire Le pagerank modulaire part du principe qu’il est possible de calculer une bonne approximation des pageranks de toutes les pages en découpant le web à partir d’un jeu de pages de départ, baptisé "Hub set". Un page rank est calculé pour chaque zone reliée à ces pages de départ, l’ensemble des pages dépendant de ces pages de départ recouvrant une zone plus ou moins complète du web. Les meilleurs résultats sont obtenus lorsque le Hub set est composé de pages à fort pagerank. Dans ce cas, on obtient des résultats corrects pour les page ranks, et, à condition de partir d’un Hub Set comportant un grand nombre de pages, on obtient un recouvrement quasi complet du web. Il semble que cette approche reste pour l’instant dans les labos, car le ratio gain en vitesse de calcul/précision des résultats n’est pas bon. Elle permet néanmoins de calculer des pageranks pour des zones particulières du web, avec des résultats meilleurs que l’approche traditionnelle. Le blockrank Cet algorithme part d’un constat expérimental : les pages webs ne sont pas réparties uniformément. Notamment, il existe des groupes de pages fortement liées entre elles, comme celles constituant un site web. Chaque "bloc de pages" est ensuite relié aux autres pages par un faible nombre de liens. L’idée consiste ici à calculer un pagerank "local", sur un bloc de pages (dans la pratique limité à un domaine). L’algorithme converge rapidement dans ce cas particulier. Ensuite, pour le calcul du pagerank définitif, il suffit de faire un calcul sur une matrice de blocs, et non la Toile en entier, pour obtenir une excellente approximation du pagerank réel. La manière dont les pageranks sont propagés de bloc à bloc dépend toutefois de la fixation de coefficients empiriques. Il est heureusement facile de déterminer ces coefficients de manière précise dès lors que l’on dispose d’un index de référence, avec des pageranks calculés avec un algorithme traditionnel. Cet algorithme représente une avancée considérable : il diminue le temps de calcul des pageranks de manière considérable (jusqu’à 20 fois moins ?). Il permet aussi de déterminer une bonne approximation du PR effectif pour toute nouvelle page entrant dans l’index. On soupçonne d’ailleurs fortement Google d’utiliser ce nouvel algorithme depuis mai/juin 2003. La simplification du calcul apportée par ce nouvel algorithme autorise de plus une création plus aisée de pageranks thématiques, selon le modèle décrit ci-après. Il semble néanmoins que tous les problèmes ne soient pas résolus, car les erreurs de calcul augmentent de manière exponentielle dès que l’on augmente le nombre de PR thématiques calculés. Le Pagerank sensible à la thématique Ce "nouvel" algorithme en fait ne consiste en fait qu’en une réutilisation astucieuse du PageRank traditionnel. L’idée part d’un constat simple : le pagerank permet de classer par ordre d’impotance des pages dont le contenu est identique. Mais il ne permet pas de distinguer une page qui parle du "jaguar" l’animal, ou de la "jaguar" la voiture. La solution proposée dans le "Topic Sensitive Pagerank" est de biaiser le calcul du Pagerank en donnant plus d’importance aux pages bénéficiant de liens en provenance de sites dont on connait la thématique de départ. Dans la pratique, on peut par exemple prendre en compte les sites mentionnés dans l’une des 16 rubriques de niveau 1 de l’ODP. Le résultat donne forcément 17 vecteurs de Pagerank différents pour chaque page : le PageRank "général", et les 16 pageranks biaisés... Ces valeurs sont stockées dans l’index avec les pages, comme pour un moteur basé sur le pagerank traditionnel. Pour utiliser ces valeurs correctement, il suffit ensuite d’être en mesure de déterminer à quelle thématique se rattache une requête donnée. Ceci peut être obtenu grâce à une analyse syntaxique et sémantique sommaire, facile à calculer à la volée. Il suffit en effet de créer un index contenant, pour chaque thématique, le nombre d’occurences de chaque terme apparaissant dans les pages. Ensuite, la thématique associée à une requête sera évaluée selon une méthode probabiliste, d’autant plus précise que l’on connait le contexte de la requête... Comme on le voit dans le schéma ci-dessous, l’architecture d’un tel moteur est assez peu différente d’une architecture traditionnelle avec pagerank. L’essentiel des calculs longs et complexes est toujours effectué offline. Comme on le voit dans l’exemple ci-dessous, publié dans l’article de Kamvar et Haveliwala, les résultats obtenus sur la requête "bicycle" sont très différents suivant le contexte thématique, et les résultats en général beaucoup plus pertinents. Première partie :
Philippe YONNET
[1] L’une des découvertes a été l’extrapolation quadratique, un système qui permet d’éviter des calculs matriciels systématiques inutiles au cours du calcul du PageRank. Une autre a été le "PageRank adaptatif" ("adaptative pagerank") un algorithme qui tient compte de la possibilité de ne pas calculer certains termes à différentes étapes de l’itération |
|
||
|