Aller au contenu

Article sur l'algorithme HITS


Sujets conseillés

J'ai publié un nouvel article dans la partie publications.

Il s'agit de la première partie d'une présentation de l'algorithme HITS, utilisé (en tout cas ses dérivés) par Teoma, ou Webfountain par exemple...

http://www.webmaster-hub.com/publication/article61.html

Si vous avez des remarques ou des questions, n'hésitez pas...

Lien vers le commentaire
Partager sur d’autres sites

Un site peut il être à la fois hub et authority? par exemple Yahoo présente ces 2 aspects : fréquemment cité (donc authority) mais pointant vers de nombreux sites (hub)

Lien vers le commentaire
Partager sur d’autres sites

Un site peut il être à la fois hub et authority? par exemple Yahoo présente ces 2 aspects : fréquemment cité (donc authority) mais pointant vers de nombreux sites (hub)

Très bonne question ! Dans la plupart des cas, l'algorithme décide facilement si un site est un "hub" ou une "authority". Il classerait ainsi directement Yahoo en Hub (Yahoo est presque un "archétype" de Hub).

Mais en fait, l'algo note chaque page en fonction de ses performances de "Hub" et d'"Authority" (les deux).

Par construction de l'Algo, un bon Hub n'est pas une bonne Authority, et réciproquement. Par contre un "Hub" moyen peut aussi être une "Authority" moyenne. Tous les intermédiaires sont possibles.

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

Excellent article ;)

Pour ma part, je ne classerais pas du tout Yahoo dans Authority. En effet, hormis les différentes pages d'accueil, il y a très peu de liens vers les pages Yahoo. Le site Yahoo est un site très souvent pointé, mais il n'y a pas une page particulière, dans Yahoo, qui soit plus pointée que les autres, il n'y a pas une page qui soit pointée spécialement pour son contenu.

On trouve, dans le domaine de l'informatique, beaucoup de pages Authority. Si le site du w3c, avec sa page w3.org est beaucoup cité, les pages du site, par exemple le HTML validator est aussi vraiment souvent cité, sans que ne soit fait référence au w3c. Elle est donc citée pour son contenu, et non parce qu'elle a un lien avec la page d'accueil.

La page du validator est donc une page authority. (pour info, ces deux pages ont un PR10) Mais... pour en revenir à Yahoo, il n'y a pas une page spécialement citée pour son contenu.

Or c'est justement là que se situe la différence entre l'algorithme google et l'algorithme HITS. L'un considère qu'une page est intéressante parce que la page qui fait lien vers elle est intéressante. Pour HITS, une page est intéressante parce qu'elle est citée, c'est tout.

Voilà mon avis.

A+, Anonymus.

Lien vers le commentaire
Partager sur d’autres sites

Or c'est justement là que se situe la différence entre l'algorithme google et l'algorithme HITS. L'un considère qu'une page est intéressante parce que la page qui fait lien vers elle est intéressante. Pour HITS, une page est intéressante parce qu'elle est citée, c'est tout.

Je complète ton observation Nico (j'avais fait exprès de ne pas rentrer dans des détails trop techniques dans l'article, en me disant que cela n'intéresserait personne, visiblement, si...) :

Il y'a deux différences fondamentales entre le PageRank et HITS.

Premièrement, la théorie mathématique sous jacente utilisée est différente (mais dans les deux cas, il s'agit de résultats de la théorie des graphes orientés).

Deuxièmement, c'est la manière de prendre en compte les liens qui est fondamentalement différente :

- dans le pagerank, une page est notée en fonction du "poids" de chaque lien entrant qui pointe vers cette page... Chaque lien est pris en compte individuellement, sans se soucier des autres liens. Et peu importe la page d'où viennent ces liens, seul le "poids" du lien est pris en compte...

- dans l'algorithme HITS, on ne s'intéresse pas uniquement aux liens entrants, mais aussi aux lien sortants... Ce qui permet de discerner des "structures" sur le net que le pagerank ne permet pas de voir. Et c'est la page d'où provient le lien ou vers lequel le lien pointe qui transmet son poids, pas le lien lui-même.

Lien vers le commentaire
Partager sur d’autres sites

Lors de ton premier article sur le sujet, je t'avais déjà demandé la suite ;)

Je rappelle que ton article est la suite d'une longue série, que l'on retrouve ici : moteur de recherche et algorithme, dont le PR est 4 :D Ca ne s'invente pas ;)

Pour ce qui est du modèle qu'ils essaient de constituer avec le HITS, par rapport à celui de google, mon avis est :

Chacun essaie d'élaborer un nouvel algo, pour faire face au redoutable PR de google. Jusqu'à maintenant, il semblerait que seules des variantes de l'algo de google soient sorties. Les chercheurs seraient ils en mal d'imagination ? En fait, non, puisque celui ci a l'air de marcher.

Les tests effectués notamment par IBM ont l'air etonnament efficaces, et démontrent que l'on peut voir la toile sous un autre jour.

Internet et ses liens hypertextes offrent une masse d'informations illimitée, que les chercheurs ne savent pas exploiter. Google a été un pionnier, pour avoir cherché une autre manière (par rapport aux classiques annuaires de l'époque) d'aborder le problème que posent les sites internet.

Si IBM oriente son projet vers le B to B, il n'est pas impossible qu'ils crééent une structure 'grand public', voire meme que quelqu'un en mal d'inspiration rachète la licence pour le grand public.

Il faut rappeler que, sur internet, les années sont des siècles : Les premières places sont toujours arduement acquises, et facilement perdues.

Anonymus.

ps : comme dirait mon fils : Vivement mercredi prochain :D

Lien vers le commentaire
Partager sur d’autres sites

En fait, on peut remarquer que depuis 97/98, aucune idée franchement nouvelle n'a été avancée dans le domaine des algorithmes de classement se basant sur la structure des liens...

A mon avis pourtant, tout n'a pas été exploré dans le domaine...

Mais nous sommes typiquement dans le domaine de la recherche appliquée : on ne cherche que ce dont on à besoin. Il semble donc qu'à l'heure actuelle, le besoin de nouvelles solutions ne se fasse pas encore suffisamment sentir...

Mais il y'a fort à parier que si la guerre entre Yahoo, Google et MSN perdure plus d'un an, on verra de nouvelles idées jaillir.

Lien vers le commentaire
Partager sur d’autres sites

Tizel vient de publier la deuxième et dernière partie de mon article sur l'algorithme HITS.

HITS et CLEVER deuxième partie

L'article est à présent au complet.

Enfin... comme j'ai pu voir que cet article a suscité de la curiosité, je vais sans doute le compléter prochainement par un développement plus "technique" sur les principes mathématiques de cet algorithme.

Lien vers le commentaire
Partager sur d’autres sites

  • 11 months later...

Salut,

je suis étudiant et je dois faire un projet sur le Webfountain

Vous avez tous l'air d'être des pros ds ce domaine pourriez vous me parler de certains élements et/ou me donner des liens pour compléter vos informations

# Le projet WebFountain (historique, moyens techniques)

# Procédures de recherche (crawler, spider ..)

# WebFountain et sémantique

# Architecture du moteur

# L'algorithme utilisé

# Les concurrents de WebFountain

# Les enjeux économiques du nouveau moteur

# Vers l'internet payant ?

Voilà les parties de mon projet

Merci à bientôt

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...