|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie)
Deuxième partie : techniques évoluéesLes techniques évoluées d’indexation dans les moteurs de recherche (2e partie)Les techniques de crawl sur index "ouverts"25 mars 2004, par CaribooDans la première partie, nous avons évoqué l’enjeu pour un moteur de recherche de disposer d’un index à jour. Et nous avons expliqué comment la technique traditionnelle du "batch crawling" représentait de ce point de vue un obstacle pour atteindre cet objectif :
Nous allons voir que de nouvelles techniques de crawl permettent de bien meilleurs résultats. Et que ces techniques sont d’ores et déjà utilisées par les principaux moteurs de recherche. Une solution : indexer plus souvent les pages les plus importantesC’est la piste proposée par Cho et Garcia-Molina [1][2]. Les deux chercheurs américains sont partis du principe que la Toile représente un volume global de données qui atteint (c’est une estimation indirecte, valable au moment de la publication de l’article) plusieurs téraoctets de données. Gérer une telle quantité d’information représente déjà un défi gigantesque sur le plan technique. Mais toute cette masse de données n’est pas forcément utile pour la plupart des utilisations classiques d’un moteur de recherche, il n’est donc pas absurde de "limiter" la taille de l’index, de manière arbitraire, à une portion de cet ensemble, sans dégrader gravement la pertinence des résultats. Cho et Garcia Molina se sont donc attachés à améliorer la qualité d’un index de taille fixe et limitée. Cette approche convient notamment si l’on souhaite développer un moteur performant, mais avec des ressources limitées. Elle privilégie la fraîcheur et la qualité de l’index, par rapport à l’exhaustivité. Le fondement de cette approche repose sur une évaluation de l’importance des pages. En effet, la qualité d’un index limité reposera sur la possibilité d’indexer toujours les pages "importantes", et jamais les pages "sans importance". Le problème est de définir les bons critères pour évaluer l’importance d’une page... La technique proposée par Garcia et Molina repose sur une combinaison des critères possibles suivants pour attribuer à chaque url une note d’importance :
Une fois que l’on a défini une fonction d’évaluation de l’importance de la page, on peut s’en servir pour déterminer de manière plus intelligente l’ordre de crawl pour les pages, en indexant toujours de manière prioritaire les pages dotées de la meilleure note d’importance... A noter que les travaux de Cho et Garcia-Molina ont montré que s’il ne fallait se baser que sur un seul de ces critères, le pagerank fournissait l’évaluation la plus efficace. Le crawler incrémentalPar la suite, les deux chercheurs ont travaillé sur une application de cette fonction d’évaluation des pages à un crawler "incrémental". Un tel robot d’indexation, par opposition à la technique d’indexation par lot, ne s’arrête jamais. Il ne s’agit plus d’aspirer tout le web et de s’arrêter, pour recommencer à zéro plus tard. Un crawler incrémental a pour mission de déterminer quelles pages sont susceptibles d’être devenues obsolètes, et de les mettre à jour. Cette approche incrémentale est beaucoup plus économique en ressources, car elle évite en théorie d’avoir à crawler des pages qui n’ont pas changé. Et il devient possible d’adapter la périodicité des crawls à la fréquence de changement des pages d’un site donné. Le cycle de crawl n’est plus uniforme : il varie d’un domaine à un autre. [*] Une telle technique n’est utilisable que si l’on a pris soin d’évaluer préalablement la fréquence de changement des pages dans un site donné. Et il faut séparer ici deux évolutions différentes : la disparition de pages et l’apparition de nouvelles d’une part, et les changements de contenu dans une page donnée d’autre part. Un moteur de recherche qui décide de s’appuyer sur les techniques incrémentales a donc besoin, pour que l’indexation soit pertinente, d’ attendre un certain délai pour collecter des informations fiables sur la manière dont l’index évolue. Il convient par la suite de mettre à jour ces informations, et de lancer, périodiquement, un "batch crawling" général pour éviter une dérive de l’index. L’ordre de crawl, dans le robot d’indexation proposé par Garcia-Molina et Cho, est donc finalement déterminé en fonction de deux groupes de critères différents :
Un crawler incrémental, sur une base ouverte (L’exemple de Webfountain)Jenny Edwards, une spécialiste australienne des robots d’indexation, a proposé une méthode similaire, mais capable de fonctionner non pas sur un index limité, mais sur un index ouvert, et de taille variable[3][4]. Ses travaux ont trouvé leur application dans le nouvel outil de recherche d’IBM : Webfountain, avec le crawler baptisé "Seeker". Pourquoi un index ouvert ? Parce qu’au sein de "Big Blue", Jenny Edwards savait qu’elle pouvait disposer de stations de travail ultra-puissantes, d’une bande passante très importante, et de capacité de stockage sans équivalent. Travailler sur une solution flexible, capable de suivre la croissance de la Toile n’était plus une utopie avec de tels moyens. Dans ce cas, l’adjectif "incrémental" prend une signification légèrement différente. Il ne s’agit plus de mettre à jour un index fixe, mais de mettre à jour les pages existantes de l’index. Seeker ne tient pas compte de l’importance des pages, mais uniquement de leur rythme de changement. Sa particularité est de "séparer" le traitement des urls, en fonction de leur fréquence de mise à jour... Ce qui permet de traiter différemment les sites d’actualités, des sites qui ne disposent que de pages fixes rarement modifiées.
Vers le niveau de fraîcheur optimal ?Toutes ces techniques évoluées permettent d’améliorer le niveau de "fraîcheur" des index. Si l’on considère la Toile dans son ensemble, disposer d’un index parfaitement à jour reste toutefois encore une utopie. Mais pour celui qui veut développer un moteur d’actualités, la démonstration est faite qu’il est parfaitement possible d’élaborer un crawler capable de maintenir son index à jour, même si elles s’avèrent changer plusieurs fois par heure. Les techniques de crawl évoluées dotent les moteurs de recherche, jadis un peu myopes, de capacités d’indexation désormais très impressionnantes... C’est une avancée importante dans la problématique de la pertinence des résultats. Mais c’est dans l’amélioration de tous les autres maillons de la chaîne de production de ces résultats que se jouera l’avenir des moteurs de recherche ... Philippe YONNET BIBLIOGRAPHIE [1]The Evolution of the Web and Implications for an Incremental Crawler
[2]Parallel Crawlers
[3]Webfountain d’IBM : un moteur de recherche révolutionnaire
[4]An Adaptive Model for Optimizing Performance of an Incremental Web Crawler
[5]Crawling the HiddenWeb
[*] Le comportement d’un robot d’indexation incrémental décrit ici correspond trait pour trait à celui de Googlebot depuis quelques mois. Ce n’est probablement pas une coïncidence : le robot de Google semble fonctionner de manière incrémentale. [1] ** à noter que Googlebot sait suivre depuis peu les liens en javascript, ainsi que ceux contenus dans des fichiers de type flash, ou pdf, sous certaines conditions |
|
||
|