|
Site Web : Pnambique Directeur du Pôle Experts de la société @position http://www.aposition.com Articles de l'auteur : La détection du Link Spam : un challenge pour les moteurs [3/4] La détection du Link Spam : un challenge pour les moteurs [2/4] La détection du Link Spam : un challenge pour les moteurs [Bibl.] La détection du Link Spam : un challenge pour les moteurs [1/4] Cuill veut surpasser Google grâce à l’analyse de données sémantiques 2007 : l’année des moteurs furtifs L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2] L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1] Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux Une tentative de définition du spamdexing Google Base dévoilé ! Les concepts de la POO La programmation objet : qu’est-ce que c’est ? à quoi ça sert ? Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs" Direct Answers from Encarta MSN Search utilise-t’il l’analyse au niveau des blocs ? Spyware : les méthodes pour s’en débarasser Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité" La sémantique appliquée et les outils de recherche [2/6] Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia Applications des outils sémantiques au référencement et aux moteurs de recherche Sémantique appliquée : Liens et références bibliographiques ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3] Mon premier programme en PHP (3e Partie) CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2] CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1] Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin) Quelques pistes pour comprendre le nouvel algorithme de Google FOOXX, le moteur futé venu d’Allemagne Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ? Mooter, un moteur de recherche innovant venu d’Australie Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie) Visibilité et stratégies de développement d’audience sur le Web Les techniques évoluées d’indexation dans les moteurs de recherche L’algorithme HITS et le projet CLEVER (deuxième partie) L’algorithme HITS et le projet CLEVER La structure du web est en forme de "noeud papillon" Webfountain d’IBM Vers un moteur de recherche sensible au contexte (1ère partie) Vers un moteur de recherche sensible au contexte (2ème partie) Vers un moteur de recherche sensible au contexte (3ème partie) Droit d’auteur et site web Droit d’auteur et site web (2e Partie) Droit des producteurs de bases de données (législation française) Tester correctement variables et valeurs en php Mon premier programme en PHP (2e Partie) Les nouveautés de la version 5 de PHP Les origines du PHP Mon premier programme en PHP Pourquoi choisir le PHP pour réaliser des pages dynamiques ? |
L’algorithme HITS et le projet CLEVER
Première partie : les principesL’algorithme HITS et le projet CLEVERL’autre algorithme de classement10 mars 2004, par CaribooHITS est, avec le Pagerank, l’un des plus célèbres algorithmes de classement des sites webs. Jusqu’à une époque récente, il était plutôt resté un outil théorique, et n’avait été utilisé que partiellement dans des moteurs de recherche grand public (comme dans Ask Jeeves). La sortie de l’application Webfountain d’IBM montre pourtant que les concepts qui constituent les fondements de HITS autorisent des applications de grande envergure. HITS a par ailleurs permis très tôt de nombreux développements destinés à étudier des portions limitées du web, ou de repérer des communautés sur le web. UN PEU D’HISTOIRELes idées à la base des algorithmes de classification sont nées sur la période 1997/1998 comme une conséquence du succès d’Altavista. Ce moteur de recherche a été le premier à proposer un index de taille respectable, et à proposer un "classement" des résultats pour faciliter la sélection des pages "pertinentes" en fonction de la requête. Mais tout le monde s’est très vite aperçu que cette "pertinence" des pages était toute relative : Altavista à cette époque n’utilisait que des critères liés au contenu de la page, ainsi que les balises "meta". Il fallait donc souvent passer en revue des dizaines de résultats pour dénicher une page réellement en rapport avec le contenu recherché. Plusieurs groupes de chercheurs se sont donc lancés à la recherche d’une méthode permettant de "classer" les pages, non plus en fonction de leur contenu, mais en fonction des relations entre les pages. Cette idée était dans l’air du temps, car elle est contemporaine des premières analyses scientifiques de la "Toile", dont la croissance explosive venait de commencer... Les relations multiples entre les pages créées par l’apport de l’hypertexte constituent depuis l’origine l’un des éléments les plus caractéristiques du World Wide Web . Il est apparu assez vite que l’étude des relations entre pages liées permettait de tirer des informations utiles pour comprendre la structure du web... Ces recherches ont abouti à deux algorithmes : le pagerank de Page et Brin, issu de recherches menées au sein de l’Université de Stanford, qui ont trouvé leur application dans le moteur de recherche ... Google, quelques mois après la publication des premiers résultats. Et l’algorithme HITS [1], imaginé par John Kleinberg.
L’idée de Kleinberg trouve son origine dans des recherches beaucoup plus anciennes : la méthode de Pinski-Narin pour évaluer le "poids" d’une publication scientifique en fonction du nombres d’autres publication qui la cite. Tous les algorithmes basés sur l’étude des liens sont les héritiers plus ou moins directs de ces méthodes dites "bibliométriques". LES PRINCIPES DE L’ALGORITHME HITS : HUBS et AUTHORITIESL’algorithme HITS s’appuie sur un principe simple : tous les sites webs n’ont pas la même importance, et ne jouent pas le même rôle. Certains sites sont des "sites de référence", leurs pages sont souvent citées dans d’autres sites. Ces sites de référence sont appelés "authorities" dans HITS [2]. Alors que les "authorities" sont les véritables sites qui contiennent de l’information, d’autres sites appelés "Hubs" jouent un rôle tout aussi important, bien qu’ils ne contiennent, pas, à proprement parler, de contenu informatif... Il s’agit des sites qui contiennent des liens vers les "authorities", et qui permettent de "structurer" la Toile en indiquant où sont les pages intéressantes sur un sujet donné.
Si l’on observe la structure des liens, un "Hub" se caractérise par la présence de nombreux liens sortants pointant vers des "authorities", tandis que les "authorities" montrent surtout des liens entrants "émanant" des hubs [3] L’analyse des "hubs" et "authorities" permet aussi de distinguer, sur la toile, l’existence de "communautés", c’est à dire de groupes de sites fortement liés entre eux. Un algorithme simple permet de repérer les sites concernés. C’est l’un des avantages de l’algorithme HITS (le Pagerank ne le permet pas aussi directement). Philippe YONNET Suite de l’article :
[1] HITS est un acronyme pour : Hyperlinked Induced Topic Search [2] ce terme anglais a une double connotation : ce sont donc à la fois des sites qui "font autorité", mais aussi des sites "institutions" [3] Dans les méthodes bibliométriques, on retrouve aussi cette structure avec l’existence de "co-citations" : des publications qui sont régulièrement citées les unes à côté des autres dès que l’on parle d’un sujet. |
|
||
|