Aller au contenu

Cariboo

Membre+
  • Compteur de contenus

    3 376
  • Inscrit(e) le

  • Dernière visite

Messages postés par Cariboo

  1. Il est étonnant de voir qu'ils déposent des brevets sur le simple fait qu'ils arriveraient à indexer 100 milliards de pages. Cela semblerait dire que les indexes actuels seraient limités !? A priori, les moteurs majeurs ne donnent plus la taille de leur index depuis que celui-ci a atteint 20 milliards de pages. Là, tu parles de Archives.org, qui aurait... 30 milliards de pages.

    Absolument, d'ailleurs Anna Paterson et Google avaient dévoilé le pot aux roses fin 2005 : leur index primaire ne faisait que 6 à 8 milliards de pages (les chiffres varient suivant ce qu'on compte), pour le reste ils avaient recours à un index secondaire, beaucoup moins à jour, et moins complet au niveau informations, avec des temps d'accès déplorable.

    Le problème, c'est que le nombre d'informations que Google veut stocker pour chaque page et chaque terme (ou groupe de termes) a aussi fortement augmenté. Donc la quantité d'information a stocker a été multipliée de beaucoup plus qu'un facteur 100 d'après ce que j'ai compris.

    C'est pas le génie du moteur qui a fait le succès de Google, mais bien les liens sponsorisés contextuels. Au lieu de chercher à faire un meilleur moteur, je dis qu'il faudrait plutôt s'attaquer à mettre en place un meilleur système publicitaire.

    Tout dépend de quoi on parle. Les adwords ont fait le succès financier de Google, et le principal problème des nouveaux entrants, c'est qu'ils n'ont pas les milliards de Google ou de Microsoft, et qu'ils finiront dans le meilleur des cas avalés par l'un des géants.

    Mais il faut quand même rappeler l'histoire de Google : c'est un moteur sans pub qui a "explosé" Altavista en quelques mois à la fin des années 2000. Les liens sponsorisés n'ont pas été inventés par Google, et ont très longtemps fourni des ressources limitées à Google. Les adsense (la techno ayant failli aussi aller chez Yahoo) et les bénéfices records n'arrivent qu'en juin 2003. Soit après des années de fonctionnement sans modèle économique sérieux.

    Pour réussir à contrer Google, il faut des ressources financières importantes ET une bonne techno. Les deux. Avec juste les moyens, on parvient seulement à exister comme pour MSN jusqu'à présent.

    Sinon je suis d'accord pour les effets d'annonce : dans l'immense majorité des cas, derrière un moteur furtif, il n'y a que du vent. Là, y'a déjà une réalité : on voit le crawler Twiceler partout, et tout le temps. La plupart des moteurs furtifs, étrangement, ne crawlent rien, ce qui est toujours mauvais signe. Mais on verra bien ce qu'ils vont nous sortir, et même, si le moteur sort un jour.

  2. Là ou tu te trompes, c'est que ce n'est pas nouveau.

    D'autres l'ont déjà fait remarquer avant toi, il y'a ... trois semaines.

    Rien de neuf sous le soleil.

    Et au cas ou tout le monde ne l'auraient pas encore remarqué : les admins de ce forum se fichent du PR, encore plus de celui du Hub, et le premier de ceux-qui-s'en-fichent-pas-mal-du-PR-attribué-par-Google-et-que-cela-n'empeche-pas-de-dormir est certainement : Dan :smartass:

    Mais merci, c'est l'intention qui compte :)

  3. Un très bon billet de Lionel. :thumbsup:

    J'adhère à cette vision des choses.

    Mais je pense que le problème va au delà du fonctionnement "en écosystème" et de l'éternelle course aux armements entre moteurs et SEO. Un sérieux progrès dans les algos fera du bien à tout le monde :

    - aux internautes qui trouveront ce qu'ils cherchent

    - aux moteurs, qui pourront juste perfectionner la résistance au spam de leurs algos, sans avoir besoin que l'on change le fonctionnement du web

    - au monde du SEO, qui risque d'être violemment assaini s'il devient difficile de manipuler l'algo

  4. En même temps, il y'a des activités légales dans tous les pays du monde.

    Par exemple, je doute qu'un tribunal du Botswana prenne ombrage de l'activité de Webmaster-Hub. Dan, dors sur tes deux oreilles, c'est pas demain que tu te feras enfermer par la police du Bechuanaland dans une geôle de Gaborone pour un post même vengeur sur l'url-rewriting. :smartass:

    A moins que tu ais laissé des mauvais souvenirs la bas à ton époque SudAf ;)

  5. Cela parait impossible, mais pourtant c'est vrai...

    C'est pour ça que le moteur Google est différent en Chine, et que Yahoo s'est fait condamner en France pour avoir enfreint une loi qui existe en France mais pas aux USA ! Et que le développement d'internet est un casse tête pour les juristes et un défi pour les gouvernements de tous les pays.

  6. Je me demande même si le positionnement des sites ne prend pas en compte des données relatives à ce fameux tracking. Je n'ai pas de certitude absolue en la matière... mais disons que quelques cas troublants me laissent penser que cette hypothèse n'est pas totalement à exclure.

    Ton avis est partagé par pas mal de gens en fait. Ces hypothèses sont régulièrement balayées sur les forums pour deux raisons :

    - souvent les gens ne sont pas aussi prudents que toi, en parlant de contribution simple, mais affirment que c'est LE critère. C'est évidemment faux, et c'est normal que cette hypothèse soit balayée avec cette formulation

    - les indices il y'a quelques années étaient inexistants. En tout cas ce n'était pas clair. Aujourd'hui on peut se poser la question. Même si je ne serais pas surpris d'apprendre que ... ce n'est pas du tout pris en compte.

    Un fort trafic n'est pas un gage de pertinence. Un grand nombre de clics sur un résultat oui. Cette donnée de tracking peut-être utilisée pour valider le bien fondé d'une évolution de l'algo (pour caricaturer, si les résultats cliqués ne sont pas souvent les premiers, mais ceux situés à partir de la position quatre, c'est que l'algo est mauvais, et que les trois premiers résultats ne sont pas considérés comme pertinents par l'internaute).

    Le trafic est par contre un indice d'importance pour une page. Mais, comme certaines pages reçoivent l'essentiel de leur trafic par Google, trop tenir compte du trafic aboutit forcément à des biais : le moteur considèrerait une page comme importante, parce qu'elle a été promue par son algo (pas bon ça). Il faut donc un facteur d'atténuation important, et ce critère doit être croisé avec d'autres.

    Disons que c'est typiquement le genre de critères que j'utiliserai dans un filtre antispam, pas forcément en tant que critère de pertinence majeur dans un moteur de recherche.

  7. Je vais commencer par rappeler une vérité : si ces pratiques posent problème, c'est parce que l'algo de Google est pourri.

    Si l'algo de Google était aussi bon que ça, ces sites existeraient, et ne sortiraient pas en tête des résultats.

    Et si l'algo de Google n'était pas sensible au spam, ces pratiques n'existeraient pas.

    Plus le temps passe, plus le web ressemble à ce que Google veut qu'il soit, et non à ce qu'il serait s'il n'était pas influencé par Google. Quand on en vient à dire qui a le droit de faire des liens vers qui, et comment ces liens doivent être négociés, sous prétexte de préserver le PageRank, on marche sur la tête.

    Vive le web libre !

    Je veux des moteurs qui me donnent des résultats pertinents quelle que soit la nature du web, pas des moteurs qui doivent changer le web pour donner des résultats pertinents.

    Il faut des règles pour encadrer les pratiques sur le web, mais pas des règles dictées par les intérêts d'une seule entreprise commerciale, pour compenser les limites de sa technologie.

    :evil:

  8. "Le résultat, c'est que le choix des sitelinks est fortement corrélé au PR, et au trafic moteur" : c'est proche de "les rubriques/pages les plus visitées" avec un zeste de PR, si je te comprends bien ?"

    Ce que je disais c'est que des critères de structure sont probablement pris en compte, notamment le nombre de backlinks qui pointent vers l'url de la base de ses sitelinks:

    7. The method of claim 1, wherein the quality factor is based on a number of web pages with a link pointing to one of the plurality of web pages.

    La corrélation avec le PR se confirme expérimentalement, mais on ne sait pas si le score de qualité utilisé est le PR lui même ou quelque chose de cousin, et si cette corrélation n'est pas un effet de bord.

    Tous les autres critères sont liés au trafic et au comportement de l'utilisateur. Mon intuition est qu'utiliser uniquement des critères de trafic comporte des "biais", et qu'un score de qualité doit être "multicritères" pour être bon.

    En tout cas, les sitelinks sont une nouvelle preuve que nos recherches sont trackées et que les données de la toolbar ne sont pas perdues pour tout le monde :hypocrite:

  9. semble-t-il avec les rubriques/pages les plus visitées.

    Euh, on ne sait pas grand chose sur les critères utilisés pour choisir les liens.

    Les spéculations sur les critères viennent de ce brevet :

    http://appft1.uspto.gov/netacgi/nph-Parser...=DN/20060287985

    Et il mentionne le tracking des visites sur les pages découvertes comme l'un des facteurs, l'autre critère possible étant le nombre de liens entrants pointant vers cette page...

    L'objectif étant de trouver une structure, faire appel à la notion de in-degree (nb de liens entrants) me parait indispensable. J'avais remarqué d'ailleurs une corrélation presque parfaite entre PR interne et choix des liens. Ensuite, il faut choisir les liens, et d'autres facteurs deviennent plus pertinents (le nombre de clics mesuré sur le moteur).

    Le résultat, c'est que le choix des sitelinks est fortement corrélé au PR, et au trafic moteur, mais comme toutes ces notions sont interdépendantes, cela rend le "reverse engeneering" délicat, voire impossible.

    Mais "who cares". Surtout depuis que l'on peut "intervenir" sur les choix du moteur.

  10. Visiblement, Matt a réussi son coup, et a créé le trouble chez les webmasters, même les plus aguerris :?:

    C'est bien la vente de liens (et non l'achat) qui est stigmatisé par Matt Cutts.

    Par contre, si on se réfère aux TOS, on comprend que ce n'est pas tant la vente de liens dans l'absolu qui est interdite par les conditions générales, mais toute technique de manipulation du pagerank.

    Donc si vous achetez ou vendez un lien publicitaire pour générer de la visibilité ou du trafic, vous ne violez pas les TOS. Mais vendre un lien à seule fin de doper le PR de l'acheteur : c'est interdit.

    Et si vous avez un doute, pensez au noindex, nofollow.

    Mais surtout ne remettez pas en cause les modèles économiques les plus courants sur le web :)

  11. Oui cela semble bien être le cas.

    Hélas on ne peut jamais rien tirer comme indication d'un changement dans le décompte des backlinks fourni par Google. L'échantillon fourni est choisi suivant des critères que personne, à ma connaissance, n'a révélé ou décelé. Mais si quelqu'un a des infos là dessus, je suis preneur :)

  12. Avant de choisir le script qui va générer ton tagcloud, il faut choisir l'indicateur qui va te servir à calculer la taille de la police. Nombre de ventes ? Nombre d'articles dans une catégorie donnée ? Importance à tes yeux ?

    Attention par ailleurs, les tagclouds sont à la mode, mais ont des inconvénients. Par exemple, gare aux solutions basées sur les requêtes des internautes : certaines requêtes fréquentes font "tache" sur un site e-commerce. Nul n'a besoin de savoir que l'on cherche aussi sur ton site "sexe", "mp3" et "paris hilton". Le tagcloud doit passer par un filtre "marketing".

    Ensuite, le tagcloud remplit ta page de termes sur une thématique plus large que la page elle même. Ce qui n'est pas top pour le référencement. Il crée par ailleurs des liens internes, ce qui peut être favorable ou non suivant le contexte.

    Les tagclouds sont à la mode, tout le monde en met à toutes les sauces, il faut quand même que cela soit fait avec un objectif précis et pas n'importe comment.

    Pour le script, tu utilises quelle techno sur ton serveur ?

  13. Je ne partage pas du tout la thèse selon laquelle Google n'utilise plus le pagerank (en tout cas un algorithme de calcul de la popularité par les liens) en tant que critère de classement.

    Le fait que Google se sente obligé de sanctionner MAINTENANT des pratiques qui durent depuis des années démontre que le fait de manipuler à grands coups de liens l'algorithme du pagerank lui pose problème, et qu'ils ne savent pas contourner la difficulté.

    Quelque chose qui ressemble fortement au pagerank est donc toujours utilisé.

    Nos amis de Google ont fini par s'apercevoir que l'une des pistes pour gêner les petits malins était de ne plus rafraîchir les bases de pagerank régulièrement. Et maintenant de manipuler le contenu de la petite barre verte pour faire passer leurs messages.

    Donc il va falloir traiter le PR de la toolbar avec plus de méfiance qu'avant. Mais obtenir des liens de qualité continue de faire progresser vers les meilleures positions.

    Je prépare aussi un article dans lequel je fais le point sur les indices d'évolutions récentes de Google (sur les deux dernières années), qui démontre (c'est un peu la thèse d'Olivier Andrieu) que ce qu'on trouve réellement sous le capot est autre chose que ce que laisse supposer une carrosserie qui a peu changé au fil des années.

    (pardon pour le teasing, je n'ai pas pu rater l'occasion :whistling: )

  14. j'espérai que dans les moteurs du futur, la lecture des contenus allait progresser, or tu sembles dire que c'est tâche impossible, que le savoir faire ou les connaissances

    J'ai dit ça moi ? Une tâche impossible ? Faut que je me relise, je dis n'importe quoi :)

    Pourtant, les connaissances sont là, les technos existent en laboratoire, on peut même parfois les tester... Ce qui est vrai, c'est que cela ne suffit pas.

    Depuis des années aucun progrès sérieux ne semblait possible : les créateurs de moteurs semblaient incapables de concilier le souhait d'améliorer la pertinence avec les contraintes engendrées par l'obligation de faire un outil de recherche qui marche dans toutes les langues, et qui contient n'importe quel type de page web et sur n'importe quel thème.

    La magie d'algos du style pagerank, c'est que cela marche "universellement". Peu importe que la page soit en swahili, et qu'elle parle de la culture du petit pois sur les pentes du kilimandjaro, ça marche. Faire de l'analyse syntaxique simultanément en basque, en chinois et en finno-ougrien, c'est un travail d'hercule.

    Mais là on voit apparaître des idées qui allient la force brute de calcul et de nouvelles manières d'indexer les pages, et c'est une révolution, parce que c'est ce genre d'approche qui a un avenir... Un bon algo pour un moteur capable de concurrencer Google doit être universel.

    Maintenant, le coût d'entrée pour un nouvel acteur dans le monde des outils de recherche est devenu faramineux, celui qui détrônera Google a une sacrée tâche devant lui. La société qui a les meilleurs atouts pour révolutionner les outils de recherche est sans doute ... Google elle même.

  15. Tu as raison Dan, cette analyse de HawkEye est intéressante (sauf qu'il y'a une chance qu'elle soit fausse, car inspirée par le contexte : Google fait la chasse au vendeurs de liens). Il faut d'ailleurs en tirer quelques conclusions : si la "pénalité" provient bien de la perte du pagerank transmis par certains sites, ce sont les clubs d'échanges de liens "VIP" qui sont visés, pas forcément des gens qui vendent des liens.

    Caractéristique de ces "clubs" : tout le monde fait des liens vers tout le monde... Une mini ferme de liens.

    Je rappelle que les TOS de Google interdisent un large spectre de pratiques en matière de linking

    Ne participez pas à des systèmes de liens conçus pour améliorer artificiellement le classement PageRank de votre site. Évitez tout particulièrement les liens vers des spams ou les "sites douteux" sur le Web, car ces liens risqueraient d'avoir une incidence négative sur le classement de votre site.

    Donc peu importe qu'un lien soit vendu ou pas, dès que sa présence est perçue comme artificielle, Google peut "pénaliser" le site.

×
×
  • Créer...