Aller au contenu

reverse engineering sur google


Guest mahi

Sujets conseillés

Bonjour,

je vais démarrer une petite étude de reverse engineering sur l'algoritme de google. Est ce qu'il y a des choses qui ont déjà été faites sur ce sujet telles que des études expérimentales?

Lien vers le commentaire
Partager sur d’autres sites

En matière de reverse engineering, environ 8 ans de travail de plusieurs milliers de personnes...

Sur le plan expérimental : huit ans pour des millions de webmasters...

Mais pas grand chose de concret n'a été trouvé... Il faut dire que l'exercice (le reverse engineering) trouve rapidement ses limites dans le cas d'un moteur de recherche.

Lien vers le commentaire
Partager sur d’autres sites

merci Cariboo,

je vais me mettre au travail en commencant par la recherche d'une bibliographie.

Lien vers le commentaire
Partager sur d’autres sites

ola je ne veux pas aller si loin.

je n'ai pas encore trouvé sur le web et notamment dans les forums sur le référencement des résultats expérimentaux donnant des courbes qui peuvent nous orienter vers tels ou tels principes de base utilisés par l'algorithme.

Lien vers le commentaire
Partager sur d’autres sites

L'approche statistique pour l'étude des moteurs de recherche a été testée par quelques référenceurs pro américains, et ... bernique, rien de tangible à l'arrivée.

Par contre, ces études ont le mérite de tordre le cou à des idées reçues... Comme l'influence du pagerank sur le classement.

Pourquoi l'approche statistique n'apporte que peu d'enseignements ? Il y'a trois raisons à cela, bien connue des chercheurs en IR :

- l'index de google n'est pas stable dans le temps : le temps de faire une étude, l'index a changé, et l'algorithme aussi. Si on détecte un changement dans les pages de résultat, il est difficile de savoir si c'est l'index qui a changé, ou l'algorithme, voire les deux. En plus, il y'a le jeu des multiples datacenters avec des index différents...

- l'algorithme de google n'existe pas... C'est un abus de langage. Il y'a bien un algorithme de calcul du pagerank, le reste n'est qu'une combinaison de critères de notation. On sait qu'il en existe plus d'une centaine. Faire du reverse engineering là dessus consiste donc à résoudre une équation à plus d'une centaine d'inconnues, sans connaître le degré de chaque monôme...

- le dernier point, totalement bloquant celui là, c'est que le critère le plus important est statistique... La plupart des moteurs utilisent la linguistique statistique (ou une alternative probabiliste) pour déterminer quelles pages sont pertinentes en réponse à une requête donnée. Pour en tirer des conclusions sur l'algorithme, il faut connaître le corpus de départ : le world wide web entier, dans la version indexée par Google (qui est différente du www réel). On peut avoir des résultats "approximés" à condition de disposer d'une très grosse partie de l'index global (chaque requête tapant sur une toute petite zone du web, dont les résultats statistiques peuvent être influencés parfois par un petit nombre de pages).

Bref, pour faire du reverse engineering efficace, il faut avoir l'index de Google sous la main pour faire des mesures précises. Ce que personne n'a, sauf Google, qui n'a pas besoin de reverse engineering.

Lien vers le commentaire
Partager sur d’autres sites

Je confirme ce que dit Philippe (yep je sais ça n'apporte pas beaucoup d'infos).

Pour avoir fait des essais d'analyse statistique, je peux dire que :

1. lorsqu'on transpose des résultats obtenus sur des exemples artificiels (graphe du web artificiel generé aléatoirement, contenu écrit automatiquement suivant des grammaires particulières etc.) sur le vrai web, on obtient absolument pas ce que l'on avait prévu.

2. Ce qui est vrai sur un index de quelques (environ 100) millions de pages ne semblent pas etre vrai sur un index "a la google".

Lien vers le commentaire
Partager sur d’autres sites

merci à tous pour vos réponses,

néanmoins je vais démarrer une étude statistique dans le secteur qui est devenu très concurrentielle du dépannage, maintenance, formation informatique. Je vais me restreindre au top 30 avec les paramètres tels que : ancienneté, nb de pages indéxées ..... Celà me permettra d'avoir au moins une vision à l'instant t de la chose.

Lien vers le commentaire
Partager sur d’autres sites

J'avais trouvé plusieurs études américains qui analysaient les résultats Google. Je pense qu'elles pourraient t'aider ou t'inspirer.

Je n'arrive plus à les retrouver... Si tu tombes dessus, (ou si quelqu'un du Hub à quelques liens), n'hésite pas à poster les liens ici :)

Lien vers le commentaire
Partager sur d’autres sites

J'avais essayé de faire des corrélations nombre de BL selon leur PR par rapport au PR du site... résultats à la hache, rien de tangible.

Tu devrais aller lire Jean Veronis, c'est peut être le francais qui a le plus creusé sur les bizarreries de Google.

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...