Jump to content

Page rank et Trustrank


Recommended Posts

Bonjour,

Et si le Page Rank de jadis et le Trustrank daujourdhui ne faisaient quun ?

Humble contribution

Javoue que les débats fumeux sur les humeurs cachées de Google ne mintéressent plus beaucoup, cependant et pour me changer de mes crevantes activités dans dautres domaines, autrement plus réelles et exigeantes, je vous livre ma petite illumination du jour :

Et si le fameux trust rank, sésame du bon positionnement, nétait quun affinage du Page rank ?

Je mexplique ;

A une époque héroïque, pas si éloignée que ça, des sites connus et des gourous des bonnes manières SEO se sont bâtis des trésors de guerre, en exploitant un concept encore immature qui sappelait le Page Rank. Ce breuvage VERT et précieux , se transmettait par simple capillarité dune page vers lautre, comme une transfusion sanguine regénératrice qui ignore le groupe sanguin et le facteur Réshus.

Et voilà quun matin, un ingénieur de chez GG a lu les travaux de Karl Landsteiner et Alexander Wiener qui ont découvert le facteur Rhésus en 1940.

Ce fut la débâcle en octobre dernier pour beaucoup de sites web, qui ont vu le page rank plonger.

On a mis en avant la vente de liens, je pense que ce qui a été sanctionné était un dangereux mélange des genres, où les tortues saccouplaient aux champignons ....

Le nouveau dogme peut se résumer à : ne transmet pas la vie qui veut et vers qui il veut ...

Du coup le Pagerank juice est devenu le Trustrank juice :

Une page ne transmet du potentiel que si :

- elle appartient au même groupe sémantique ( thématique ?) que la famille ou la page de destination.

Désormais, le web, comme le monde du vivant, nest plus un magma informe et indistinct , où le champignon peut s'accoupler gaiement à la tortue et faire de beaux petits ( la tête de la bestiole !!) :

Désormais, on y trouve des espèces, des familles. ( le mot race est trop polémique )

A chaque niveau correspond une échelle de valeurs clustérisée.

Un peu danthropomorphisme pour rendre le débat plus rigolo :

Une espèce peut transmettre du « génome plus évolué » ( traustrank-pagerank-) vers ses familles descendantes, mais le mélange des « races » est mal vu.

De ce point de vue, on peut assimiler la valeur du pagerank au capital inséminateur dun beau mâle : celui-ci ne transmet sa puissance que sil saccouple à sa propre espèce.

Mais contrairement à la nature, qui préfère un mâle jeune, par simple sélection naturelle, le trust rank-page rank, préfère la semence du mâle le plus vieux, le plus sage et le plus expérimenté.

Pour en finir avec la métaphore, je pense que lalgorithme de GG na pas changé dans le fond dans son concept, il sest juste affiné, en segmentant le web, comme les biologistes ont segmenté le règne du vivant au 19 ème siècle ; en espèces, races, familles : dailleurs je ne pense pas fabuler, puisque lun des concepts révélés sur lalgo de GG, en ce qui concerne la croissance naturelle dun site web, sappuie sur la courbe biologique et cognitive dun enfant.

Cela dit, on ne sétonnera pas des sanctions-récompenses disparates et apparemment contradictoires dun site web, à l autre. Les comparaisons qui tombent toujours à leau : ne sont comparables que des familles et des espèces vivant sur le même territoire (.com , .fr) et de la même classe dâge.

Bon jarrête là. Je suis déjà épuisé.

Link to post
Share on other sites

Très belles métaphores et style très original pour cet exposé.

Merci pour cette lecture ^^

Edited by ALeX!S
Link to post
Share on other sites

Merci Alexis pour ta bienveillance :smartass:

Ce que je raconte là sous l'esprit de la fable désinvolte, je le puise quand même dans des constatations sérieuses, par exemple la fameuse et inexpliquée barre grisée du pagerank qui touche tant de monde :

Voici mon propre témoignage :

Avant, aux temps héroïques ( celui des PR7 distribués comme des prospectus), la home par un simple lien interne, transmettait son potentiel aux pages de premier niveau. A présent ça a changé : la potentiel de la home page se transmet sous condition d'une caution externe crédible ( ce que j'appelais à l'époque où j'étais webmaster jeune et fougueux : une caution imbécile).

Deux exemples perso :

On a mis en ligne, une application rare , pour ne pas dire unique, qui attiré très vite des centaines de backlincks vers la page principale du répertoire qui contient l'application. méfiance de GG, cette page est resté grisée. UN jour et sans doute par accident, une des pages de sortie de cette page principale se voit attribuer un lien naturel d'un gros site. Cette page obtient donc du coup un bon page rank. la "dance" d'après, la page principale distributrice obtient son page rank, mais les 28 autres attendent grisées....

Autre exemple:

Un sous domaine entièrement grisé: et dedans , je découvre stupéfait une page , un pdf, bien ranké, ce pdf est téléchargé par des partenaires institutionnels mais ne possède que des liens internes. Mais a croire que Google dans son trust rank-page rank associe le téléchargement à un lien ! comme le disait thick. Cette page est la seule a avoir une barre verte dans le sous domaine...

Conclusion :

tant que Google bot ne comprendra pas ce qu'il lit, les liens extérieurs seront sa béquille pour juger de la pertinence d'une page. Et comme ce sera pas demain la veille que Googlebot lira "la critique de la raison pure" de kant dans le texte, les liens externes seront son conseiller. Mais .. pas n'importe quels liens : en deux mots ça sert à rien de réécrire le Larouse si on n'a pas de partenaires de choix et de poids. A une époque je rageais contre le fait que GG n'accorde pas le même poids à une page anonyme qui émet un lien pertinent, mais la nature humaine je l'avais oubliée.. les analphabètes dont le le seul ressort est de tricher, de copier de cloaquer ... qui feraient des liens contextuels pseudo naturels et pertinents.... donc les gros sites à gros page rank ont encore de beaux jours devant eux avant que GG ne passe sa licence ou son brevet ?

bref, je suis encore plus épuisé là...

Edited by zantar
Link to post
Share on other sites

Sympa ta fable, mais elle est un peu fantasmagorique :lol:

Si tu analyses la teneur du TR, il me semble difficile d'en faire une corrélation avec le PR.

D'ailleurs, ça m'étonnerait que toutes les pages bénéficient d'une notation en TR ou alors elle est tellement diluée qu'elle est insignifiante.

Le seul élément commun est que les 2 indices effectuent un maillage du Web, mais il est radicalement différent.

Je voulais aussi réagir à 2 trucs :

Une page ne transmet du potentiel que si :

- elle appartient au même groupe sémantique ( thématique ?) que la famille ou la page de destination.

Avant de pouvoir regrouper quoi que ce soit, il faudrait déjà que Google soit capable de sémantique.

Cariboo saura mieux le dire que moi, mais ça m'étonnerait que le moteur puisse comprendre de quoi parle une page.

a croire que Google dans son trust rank-page rank associe le téléchargement à un lien ! comme le disait thick.

Je ne pense pas avoir associé le vote des Internautes au TR ? Ce dont je parlais est tout autre chose, mais c'est vrai qu'il s'agit aussi d'un vote de confiance.

Bref, tu m'as l'air de voir du TR partout ! :lol:

En fait, il y a plusieurs indices comme le PR, le TR et ce fameux vote de confiance des internautes. Ce n'est pas un tout, mais bel et bien plusieurs couches.

Link to post
Share on other sites
... Si tu analyses la teneur du TR ...

Salut,

Pourrais-tu nous dire en quoi consiste la teneur du TR ? J'ai lu tellement de chose à ce sujet qu'il est difficile d'y voir clair.

Merci.

++

Patrick

Link to post
Share on other sites
Avant de pouvoir regrouper quoi que ce soit, il faudrait déjà que Google soit capable de sémantique.
Si, avec la taxinomie des annuaires où le site est inscrit, et en particulier dMoz
Link to post
Share on other sites

Euh je ne pense pas.

D'une part Dmoz (tout comme la plupart des annuaires) classe des sites et ne référence, sauf exception, que des pages d'accueil. C'est plus que léger pour avoir une idée de ce dont parlent toutes les pages du site.

Mais surtout, la sémantique, c'est l'étude du sens. Or dire qu'un site traite de tel domaine ne renseigne en rien sur le sens de ce qui est écrit. Ca peut être truffé d'erreurs et parfaitement mensonger, par exemple. Ou bien dépassé.

La thématique et la sémantique sont deux choses complètement différentes.

Link to post
Share on other sites
Mais surtout, la sémantique, c'est l'étude du sens. Or dire qu'un site traite de tel domaine ne renseigne en rien sur le sens de ce qui est écrit. Ca peut être truffé d'erreurs et parfaitement mensonger, par exemple. Ou bien dépassé.
Oui, mais ça, le fait de contenir des erreurs ou contre vérité, beaucoup d'humains ne seront pas capables de le reconnaitre.

Pour en revenir à la sémantique, google a scanné un certain nombre de documents (voir problèmes posé par le droit d'auteur) et ces documents peuvent très bien servir de base de sémantique pour des thématiques données.

Link to post
Share on other sites
ces documents peuvent très bien servir de base de sémantique pour des thématiques données.

Bien sûr que GG indexe assez de données pour faire une espèce de soupe à la linguistique de base, mais le fondement reste le même : le moteur est incapable de comprendre de quoi parle une page. Sans compréhension, pas de sémantique appliquée (en tout cas dans le sens où je l'entends).

Link to post
Share on other sites
le moteur est incapable de comprendre de quoi parle une page. Sans compréhension, pas de sémantique appliquée (en tout cas dans le sens où je l'entends).
j'ai, moi même, des fois beaucoup de mal à comprendre de quoi sont sensés parler certains sites :nonono:
Link to post
Share on other sites

Bonjour,

Pour débuter je veux juste dire que mes petits post n'ont aucune prétention pseudo scientifique, je parle de ces choses légérement avec mes moyens ...

je cite thick dans sa définition du TR :

De ce fait, ( le TR, note de moi-même) c'est un indice à part entière, complémentaire du PR, mais pas lié comme tu l'entends.

j'ai un petit doute quant à cela: car j'en arrive à cette conclusion au vu des barres de PR grisées :

Pour moi le discours de GG face à cela équivaut à ceci :

barre blanche = attends je calcule ...

barre grisée : je me méfie, j'attends des preuves externes ...

Edited by Dan
Link to post
Share on other sites

Ca me paraît tout de même vachement empirique, comme analyse.

Je ne pense pas qu'on puisse se faire un avis à partir d'une simple couleur.

D'autant que, à ce que je sache en ce qui concerne les "barres de PR", le gris (couleur de fond), équivaut à une absence de PR, alors que le blanc équivaut à un PR égal à zéro.

Link to post
Share on other sites

Je crois qu'il y a toujours une méprise dans l'interprétation de ce qu'affiche la barre de PR.

Que ça soit gris, blanc ou vert, GG calcule toujours en interne son foutu PR.

Ensuite, à l'affichage, ben... il fait ce qu'il veut bien laisser montrer.

Si la page est indexée, elle est affublée d'un PR supérieur ou égal à 0 (PR réel). Peu importe si la barre est grise ou blanche.

Je vous donne une raison beaucoup plus plausible à ces variations de couleurs : le bug (volontaire ou non) !

Faut pas chercher plus loin la petite bête qui est devant les yeux.

Link to post
Share on other sites
Avant de pouvoir regrouper quoi que ce soit, il faudrait déjà que Google soit capable de sémantique.

Si google est capable de cibler des pubs adsences, de corriger les fautes d'orthographes dans les recherches, de reconnaître le singulier du pluriel, de reconnaitre restaurant et restaurateur comme synonymes dans les recherches, .... Ca doit franchement pas lui poser de problèmes de définir les mêmes thématiques.

Que ça soit gris, blanc, ou vertGG calcule toujours en interne son foutu PR.

Même si on sait tous (enfin j'espère) que le PR affiché n'est plus le PR utilisé par Google, les tests que j'ai fait en decembre suite au baffe de quelques gros sites montrent que les pages grisées avec des liens internes oou externes de PR supérieurs ne passent quasiment pas dans les recherches. C'est une sanction de Google coontre des trucs qu'il n'apprécie pas (justifié ou non d'aillieurs). Ce qui est normal pour une nouvelle page est une sanction pour des anciennes.

Un petit exemple, le site darut.eu en cours de construction au niveau fonctionnalités (mais en ligne depuis plus d'un an avec quelques pages au début) reprend un annuaire quasiment intégré dans le site de petites annonces. La page d'entrée est PR4 (du bol .... ou plutôt quelques liens de mes autres sites), l'annuaire est grisé et comme par hasard pas de visites de Google sur cette zone. Il y a déjà du progrès, en décembre quand ca a commencé, des Pages PR4 se sont retrouvées grisées (et plus en cache) sans réellement savoir pourquoi sur d'autres sites.

Avec tout le respect que je te dois, faudrais un peu suivre l'actualité.

Edited by ybet
Link to post
Share on other sites

J'hallucine que l'on prête autant de vertus à un Trustrank alors qu'il ne sert qu'à une chose : contribuer (il n'y arrive pas tout seul) à détecter les pages de spam dans l'index d'un moteur.

Je viens de passer pas mal d'heures cumulées ces dernières semaines à me plonger dans tout ce qui existe dans la littérature scientifique sur les méthodes de lutte contre le spam. Et dieu sait si les articles ont fleuri depuis deux ans (j'arrive déjà à 50 références, va falloir que je fasse un tri dans la bibliographie, sinon elle sera plus longue que l'article lui-même).

Cela m'a servi à préparer un article qui paraîtra sur le Hub (en principe le week-end prochain), et la conférence d'aujourd'hui sur le forum e-marketing.

J'en ai déduit trois choses à propos du Trustrank (en gros les mêmes que Laurent)

- il y a peu de chances que le trustrank tel qu'il a été décrit soit implémenté dans Google. Des variantes existent, et elles sont plus efficaces.

- dans tous les cas, il se calcule à partir des liens sortants, donc à l'envers du pagerank

- il y'a zéro chance pour qu'on puisse remplacer le pagerank par le trustrank sans perdre toute pertinence...

En ce qui concerne la sémantique et les thématiques, il faut se souvenir qu'il y'a déjà beaucoup de linguistique statistique dans les moteurs... L'analyse du poids des mots permet de calculer la proximité entre la requête et les documents à classer. L'ajout d'infos sur la thématique des documents n'apporte pas grand chose à l'algorithme de classement, car :

- il est parfois délicat de trouver la bonne thématique d'une requête à un ou deux mots (le mieux est de ne pas essayer, tant le risque de se tromper est grand)

- les calculs de similarité sont plus simples et plus efficaces.

Les histoires de "thématiques" servent surtout à améliorer les algorithmes de type pagerank chargés de déterminer l'importance des pages. Mais là encore, je crois plus en une instillation de ce genre de critères qu'à un usage massif.

Link to post
Share on other sites
C'est une sanction de Google coontre des trucs qu'il n'apprécie pas (justifié ou non d'aillieurs).

Hein ??? Alors là désolé de te contredire tout de suite, mais ce que tu dis est faux et archi-faux.

A un moment, il faut arrêter de propager des espèces de légendes urbaines sans fondement. Comme contre-exemple, je ne prendrais que mon blog Adicie.com qui a toutes ses pages neuves parfaitement grisées et pourtant elles sont indexées ET positionnées en quelques minutes. Fais par exemple une recherche sur la TITLE de billets récents du blog pour t'en persuader. J'ajoute que ce site est totalement neuf (lancé fin 2007) et qu'il n'a assisté qu'à la dernière m.a.j. du PR.

J'hallucine que l'on prête autant de vertus à un Trustrank alors qu'il ne sert qu'à une chose : contribuer (il n'y arrive pas tout seul) à détecter les pages de spam dans l'index d'un moteur.

Idem. Je lis ici ou là que le PR est mort donc vive le TR, mais c'est encore une chimère de référenceurs qui se met en place.

Tu as raison de remettre les choses en place car à la base, le TR est effectivement un moyen de lutter contre le spam. En tout cas, je ne crois pas que ça soit un soupçon de TR qui propulsera un site en tête des résultats de recherche.

Par contre, je crois fermement à la validité du vote de confiance de l'internaute qui représente un critère qualitatif évident. Selon moi, les Quality Raters de Google n'en sont que leur extension.

Link to post
Share on other sites
Je lis ici ou là que le PR est mort donc vive le TR, mais c'est encore une chimère de référenceurs qui se met en place.

Tu as raison de remettre les choses en place car à la base, le TR est effectivement un moyen de lutter contre le spam. En tout cas, je ne crois pas que ça soit un soupçon de TR qui propulsera un site en tête des résultats de recherche.

Ah, je me nourris donc de chimères, ça doit être pour ça que je suis pas gros :lol:

Plus sérieusement, j'ai l'impression que sur du concurrentiel, ce ne sont pas actuellement les pages les mieux optimisées qui grimpent et se maintiennent, mais les moins plombées.

Autrement dit, il y a à présent tellement de pages "pertinentes" en ligne que la sélection ne se fait plus par le haut, mais par le bas. Imaginez des courses de marche à pied pour lesquelles les trente meilleurs marcheurs seraient quasi au même niveau et n'auraient, pour se départager, que les avertissements et sanctions données par les arbitres quand les deux pieds décollent du sol. Le vainqueur serait celui qui évite le mieux les sanctions, et non le meilleur marcheur !

Ce que je veux dire, c'est que j'ai l'impression que les scripts anti-spam ont pris une telle place dan l'algo que le simple fait de les éviter permet de positionner des pages, y compris face à du très lourd. Dans une telle optique, un facteur TR prend plus d'importance que ce que vous laissez entendre.

Après bien entendu, pour qu'un positionnement dure, je crois comme toi Thick que la validation de la satisfaction des internautes reste le critère majeur.

Link to post
Share on other sites

Le problème avec la validation par l'internaute est que ça marche diablement bien lorsqu'on s'en donne la peine, mais je n'ai malheureusement pas encore pu en tirer des conclusions commerciales. En d'autres termes, j'arrive à faire réagir rapidement l'internaute sur des sujets d'actualité; par conséquent Google adore et valorise la page. Par contre, sur le rachat de crédit ou la location de voitures, c'est pas encore ça :lol:

Disons que si tu es blogueur qui met à jour quotidiennement et s'occupe de diffuser correctement son travail, ça va marcher du tonnerre. Par contre, pour le Adsenseur c'est vachement plus compliqué car tu attaques frontalement ces filtres anti-spam sans te préoccuper du vote de l'internaute.

Ensuite, peu importe le PR, TR, âge du site, et toutes les recettes d'optimisation connues depuis 2003. J'affirme que si tu amènes un "certain" nombre d'internautes (j'vais pas vous donner tous mes secrets non plus :P ) dans les premières heures de vie de ton article, il n'y a aucun doute sur le fait qu'il va se propulser dans les résultats de recherche.

Link to post
Share on other sites

Merci Philippe de ramener un peu de raison dans le monde du référencement, parce que je ne comprends pas non plus comment on peut autant parler de choses que l'on ne peut même pas observer (style trustrank)... Que le prochain qui affirme que le PR est mort m'offre tous ses liens :D peu importe les nouveaux algos de ranking, ils viendont je pense en surcouche de ce qui existe déjà. On ne remplace pas comme ça une technologie par une autre.

Link to post
Share on other sites

J'ai oublié de souligner que je trouvais l'observation d'Ybet très juste : oui les résultats de Google sont fortement influencés par la lutte contre le spam. Du moins les premières positions. Et ce n'est pas neuf : je rappelle la panique qu'avait provoqué l'introduction de certains filtres étranges en 2003 ou en 2004, et notamment suite à l'update Florida. Ces filtres qui créent de la diversité dans les premiers résultats et éliminent certains types de spam sont toujours là et influent sur les premières positions. Et cela va encore se renforcer (lisez ce que dit Amit Singhal).

Mais comme je ne gère pas de sites spammy à titre perso, que je n'en ai jamais géré, et que je ne travaille pas non plus sur des sites de ce type, cela ne joue absolument pas sur mes stratégies de référencement. Et cela ne change rien à l'importance du pagerank pour arriver sur la première page sur des requêtes concurrentielles. Un site qui aurait un bon trustrank, mais dont aucune page ne matche avec la requête, ou n'est pas suffisamment "proche" de cette requête, ou qui n'est pas jugée "importante", n'a aucune chance d'arriver en première page. Les scores à la Trustrank servent à modérer les scores d'importance des pages qui sinon squatteraient indûment les premières places.

Notons que la plupart des systèmes mis en place par Google sont des filtres qui agissent sur la liste des résultats Il s'agit donc bien d'éléments fonctionnant en "surcouche" comme le dit Sébastien. Ce que l'on appelle l'algorithme de Google est en réalité un empilement de calculs de scores à des étapes successives, et une combinaison de critères. Pour sophistiquer l'algo, on ajoute des scores, des critères ou des étapes.

Link to post
Share on other sites

@ Thick :

- On peut ranker avec un PR quasi nul.

- On peut ranker avec un PR sensiblement inférieur face à d'autres pages jugées moins pertinentes au niveau contenu et moins bien structurées. Tout est question de scoring.

- Mais le PR servant à discriminer des pages avec un scoring proche (hors popularité), il sera difficile de ranker face à des pages d'une pertinence très similaire mais bien plus populaires.

Et puis pourquoi tu voudrais mes liens d'abord :P

Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...