|
Site Web : Webmaster Hub Ingénieur de formation, j’ai depuis longtemps été attiré par l’informatique et le système d’exploitation Unix en particulier (premier système perso sous Unix fin 1978) Après plus de 20 ans d’administration de systèmes Unix en tant que freelance au 4 coins de la planète, j’ai eu envie de faire autre chose et de poser mes valises en 2002. L’étude du Php est simple lorsqu’on a "parlé couramment" le langage C pendant si longtemps. J’ai donc créé mes premiers sites dynamiques, en partant de la feuille blanche. Ensuite, le besoin de découvrir le monde du référencement m’a attiré vers les forums spécialisés, sur lesquels j’ai eu l’occasion d’enrichir mes connaissances sur le sujet, et y découvrir les plaisirs de la modération. L’envie de démarrer un forum dédié aux Webmasters, ratissant plus large que le domaine du référencement, a germé lentement dès cette époque et a donné la naissance du Hub le 18 août 2003. Articles de l'auteur : Le PageRank par l’exemple L’algorithme du PageRank expliqué - 2ème partie L’algorithme du PageRank expliqué La réécriture d’URL récursive Le Round-Robin DNS de Google Mod_rewrite, ou la réécriture des URL "à la volée" Le fichier .htaccess |
L’algorithme du PageRank expliqué
Pas vraiment sorcier !L’algorithme du PageRank expliqué1er septembre 2003, par DanQuelques centaines - voire quelques milliers - d’interventions sur des forums dédiés au référencement de France ou d’ailleurs m’ont fait réaliser que la notion de PageRank (PR) est parmi celles qui pose le plus de problèmes de compréhension au Webmaster débutant. L’algorithme du PageRank est un des sujets qui a suscité le plus de débats passionnels auprès des Webmasters.
Essayons donc ensemble de lever un voile sur cet algorithme dont la compréhension est indispensable à un bon référencement sur le Roi des moteurs. Le PageRank, c’est quoi ?La base du PageRank - que nous noterons parfois PR dans la suite de ce document - est une formule mathématique, à
l’allure rébarbative, mais en définitive assez simple à comprendre.
Elle se base sur un concept très simple : un lien émis par une page A vers une page B est assimilé à un « vote » de A pour B. Au plus une page reçoit de « votes », au plus cette page est considérée comme importante par Google, exactement comme le principe des élections que nous connaissons tous. La comparaison avec les élections s’arrête là car toutes les pages n’ont pas le même pouvoir de « vote ».
Ce PageRank peut être visualisé par les utilisateurs de la « toolbar » Google, outil téléchargeable gratuitement, uniquement disponible pour Internet Explorer sous Windows. La représentation graphique se fait sur une échelle de 1 à 10. L’exemple ci-dessus montre l’affichage d’une page ayant un PageRank égal à 5 (noté PR5).
Et cette fameuse formule, alors ?En reprenant - après traduction - la publication originale de Google, voici les explications données :
Tout cela est bien moins compliqué qu’il n’y paraît, essayons de disséquer l’expression.
L’examen de cette formule permet de voir que le PageRank d’une page n’ayant aucun lien entrant sera de 0.15 ,
Et là apparaît la cause de la confusion la plus répandue au sujet du PageRank :
Oublions la toolbar quelques instants !Il est généralement admis que l’échelle du PageRank est logarithmique, sans que ceci ne soit officiellement confirmé. Pour cette raison, la base utilisée ne peut qu’être estimée. Il est de même raisonnable de penser que cette base évolue dans le temps.
et ainsi de suite jusqu’au PR10 pour les plus heureux. On voit ici, que chaque niveau de PageRank est 10 fois plus élevé que le niveau précédent. Ce qui signifie en clair qu’il est 10 fois plus ardu de passer de PR4 à PR5 que de passer de PR3 à PR4 (pour mémoire, la base 10 a été choisie arbitrairement dans notre exemple). Une des raisons pour lesquelles on estime que l’échelle évolue dans le temps, est que le PageRank maximum
n’est calculé que lorsque Google fait sa mise à jour de l’index, et que le nombre de pages indexées est en
constante augmentation.
En reprenant l’exemple de la page sans lien entrant donné précédemment (PR=0.15), nous voyons que la toolbar nous affichera bien la valeur 0. Comment le PageRank est-il calculé ?C’est ici que les choses se compliquent un petit peu.
Reprenons la publication de Google décrivant le PageRank :
Ceci signifie que le calcul du PageRank d’une page peut être effectué sans connaître le PR final des pages émettant un lien vers elle.
Ce sera plus simple avec quelques exemples :Réinventons le Web dans sa forme la plus simple : 2 pages A et B pointant l’une vers l’autre.
![]() Première estimation :
Soit, avec un facteur d’amortissement de 0.85 :
Bon, les valeurs ne changent pas... nous avons peut-être eu trop de chance avec notre estimation.
Première itération
Deuxième itération
Troisième itération
Nous remarquons que les valeurs augmentent à chaque itération. Dans notre exemple, avec nos deux pages A et B, nous savons que le PR doit être égal à un, l’algorithme nous
précisant que le PR moyen de toutes les pages du Web est égal à 1.
Essayons avec une valeur supérieure pour voir ce qui se passe : prenons une valeur 2.0 pour redémarrer notre expérience.
Bon, cela baisse ! Essayons une fois de plus :
Une troisième fois :
Nos valeurs continuent à converger vers 1, c’est ce que nous attendions. Premier enseignement :
Accélérer les calculs grâce au facteur d’amortissementL’exemple qui a précédé nous montre un Web simplissime, seulement 2 pages. Combien d’itérations faut-il pour
voir les résultats converger pour un grand nombre de pages ?
C’est ici que le facteur d’amortissement joue son rôle. S’il est choisi trop élevé, le calcul demandera un nombre d’itérations énorme, alors que s’il est trop bas les valeurs ne convergeront pas véritablement, mais finiront par osciller autour de la valeur théorique vraie, un peu à la manière d’un pendule. Avec un facteur d’amortissement de 0.85, il nous faut une quarantaine d’itérations pour affiner le calcul du PageRank. Deuxième exemple : quatre pages liées![]() Dans cet exemple, nous avons un site comprenant quatre pages,
dont une ne recevant aucun lien (la page D).
Au bout d’une vingtaine d’itérations, les valeurs de PR pour nos pages convergent vers les valeurs suivantes :
Nous voyons que dans notre exemple, la page C a le PR le plus élevé. C’était prévisible dès l’examen du graphique, comme elle reçoit un lien entrant des pages A,B et D, et n’en émet qu’un seul vers la page A.
Troisième exemple : liens circulaires![]()
Comme on pouvait s’y attendre dans ce cas, les liens circulaires ne favorisent aucune page du site, chaque page ayant exactement un lien entrant et un lien sortant.
Quatrième exemple : structure hiérarchique simple![]()
Voilà qui est mieux ! Le PageRank de la page A est optimisé grâce à la structure de liens hiérarchique. Cinquième exemple : on lie à tout va !![]()
Ici, on a voulu lier toutes les pages entre-elles, ce qui fait qu’aucune page n’est prépondérante. La page d’accueil du site hérite d’un PR1, au même titre que toutes les autres pages. On obtient le même PR qu’avec les liaisons circulaires, tout en gagnant en facilité de navigation pour les visiteurs. Ce type de chaînage devient très vite difficile à réaliser dès que le nombre de pages du site augmente. Sixième exemple : structure hiérarchique avec lien entrant![]()
Nous avons estimé à 1.0 le PR de la page externe (backlink) liant vers notre page A. Dans notre exemple, comme nous faisons abstraction du reste du Web, nous imaginerons que le Webmaster du site extérieur nous aime vraiment beaucoup et que le seul lien émis par sa page pointe vers la nôtre. Ceci a peu de chances de se produire dans la réalité. C’est tout bénéfice pour la page d’accueil qui, non contente d’hériter de 0.85 point de PR de la page externe, répercute cet accroissement de PR sur les pages internes du site et le récupère grâce aux liens en retour.
|
|
||
|