Aller au contenu

Cariboo

Membre+
  • Compteur de contenus

    3 376
  • Inscrit(e) le

  • Dernière visite

Tout ce qui a été posté par Cariboo

  1. Je rêve ou la présentation qui était utilisée sur le .com vient de contaminer le .fr ? Est-ce que c'était déjà en place et je ne l'ai pas remarqué ? Suis-je victime d'une expérience de Google ? En tout cas voila ce que je vois ce matin
  2. Le message d'erreur signifie que Google a essayé de crawler cette page à partir d'une url stockée dans sa base, et ne l'a pas trouvée. Mais ton site n'est pas la seule source d'urls que Google utilise pour alimenter sa base de crawl : les pages d'autres sites comportant un backlink vers une de tes pages aussi. Il suffit d'une page quelque part sur le web contenant un lien erroné pour provoquer une erreur 404 sur une page inexistante.
  3. L'essentiel des règles à connaître se trouvent dans le code électoral http://www.legifrance.gouv.fr/WAspad/ListeCodes Voir notamment le chapitre V sur la Propagande.
  4. Absolument, d'ailleurs Anna Paterson et Google avaient dévoilé le pot aux roses fin 2005 : leur index primaire ne faisait que 6 à 8 milliards de pages (les chiffres varient suivant ce qu'on compte), pour le reste ils avaient recours à un index secondaire, beaucoup moins à jour, et moins complet au niveau informations, avec des temps d'accès déplorable. Le problème, c'est que le nombre d'informations que Google veut stocker pour chaque page et chaque terme (ou groupe de termes) a aussi fortement augmenté. Donc la quantité d'information a stocker a été multipliée de beaucoup plus qu'un facteur 100 d'après ce que j'ai compris. Tout dépend de quoi on parle. Les adwords ont fait le succès financier de Google, et le principal problème des nouveaux entrants, c'est qu'ils n'ont pas les milliards de Google ou de Microsoft, et qu'ils finiront dans le meilleur des cas avalés par l'un des géants. Mais il faut quand même rappeler l'histoire de Google : c'est un moteur sans pub qui a "explosé" Altavista en quelques mois à la fin des années 2000. Les liens sponsorisés n'ont pas été inventés par Google, et ont très longtemps fourni des ressources limitées à Google. Les adsense (la techno ayant failli aussi aller chez Yahoo) et les bénéfices records n'arrivent qu'en juin 2003. Soit après des années de fonctionnement sans modèle économique sérieux. Pour réussir à contrer Google, il faut des ressources financières importantes ET une bonne techno. Les deux. Avec juste les moyens, on parvient seulement à exister comme pour MSN jusqu'à présent. Sinon je suis d'accord pour les effets d'annonce : dans l'immense majorité des cas, derrière un moteur furtif, il n'y a que du vent. Là, y'a déjà une réalité : on voit le crawler Twiceler partout, et tout le temps. La plupart des moteurs furtifs, étrangement, ne crawlent rien, ce qui est toujours mauvais signe. Mais on verra bien ce qu'ils vont nous sortir, et même, si le moteur sort un jour.
  5. Bienvenue sur le Hub Nix Ca fait plaisir de te voir ici.
  6. Là ou tu te trompes, c'est que ce n'est pas nouveau. D'autres l'ont déjà fait remarquer avant toi, il y'a ... trois semaines. Rien de neuf sous le soleil. Et au cas ou tout le monde ne l'auraient pas encore remarqué : les admins de ce forum se fichent du PR, encore plus de celui du Hub, et le premier de ceux-qui-s'en-fichent-pas-mal-du-PR-attribué-par-Google-et-que-cela-n'empeche-pas-de-dormir est certainement : Dan Mais merci, c'est l'intention qui compte
  7. Un très bon billet de Lionel. J'adhère à cette vision des choses. Mais je pense que le problème va au delà du fonctionnement "en écosystème" et de l'éternelle course aux armements entre moteurs et SEO. Un sérieux progrès dans les algos fera du bien à tout le monde : - aux internautes qui trouveront ce qu'ils cherchent - aux moteurs, qui pourront juste perfectionner la résistance au spam de leurs algos, sans avoir besoin que l'on change le fonctionnement du web - au monde du SEO, qui risque d'être violemment assaini s'il devient difficile de manipuler l'algo
  8. En même temps, il y'a des activités légales dans tous les pays du monde. Par exemple, je doute qu'un tribunal du Botswana prenne ombrage de l'activité de Webmaster-Hub. Dan, dors sur tes deux oreilles, c'est pas demain que tu te feras enfermer par la police du Bechuanaland dans une geôle de Gaborone pour un post même vengeur sur l'url-rewriting. A moins que tu ais laissé des mauvais souvenirs la bas à ton époque SudAf
  9. uh ? J'ai relu le post deux fois et je ne vois pas de quel exemple vous parlez ?
  10. Cela parait impossible, mais pourtant c'est vrai... C'est pour ça que le moteur Google est différent en Chine, et que Yahoo s'est fait condamner en France pour avoir enfreint une loi qui existe en France mais pas aux USA ! Et que le développement d'internet est un casse tête pour les juristes et un défi pour les gouvernements de tous les pays.
  11. Et c'est mieux dit et de façon plus exacte par Me Alexander... Tu peux lui faire confiance, il sait de quoi il parle... (j'avais oublié que j'avais rédigé cet article moi : , merci de me l'avoir rappelé)
  12. Ton avis est partagé par pas mal de gens en fait. Ces hypothèses sont régulièrement balayées sur les forums pour deux raisons : - souvent les gens ne sont pas aussi prudents que toi, en parlant de contribution simple, mais affirment que c'est LE critère. C'est évidemment faux, et c'est normal que cette hypothèse soit balayée avec cette formulation - les indices il y'a quelques années étaient inexistants. En tout cas ce n'était pas clair. Aujourd'hui on peut se poser la question. Même si je ne serais pas surpris d'apprendre que ... ce n'est pas du tout pris en compte. Un fort trafic n'est pas un gage de pertinence. Un grand nombre de clics sur un résultat oui. Cette donnée de tracking peut-être utilisée pour valider le bien fondé d'une évolution de l'algo (pour caricaturer, si les résultats cliqués ne sont pas souvent les premiers, mais ceux situés à partir de la position quatre, c'est que l'algo est mauvais, et que les trois premiers résultats ne sont pas considérés comme pertinents par l'internaute). Le trafic est par contre un indice d'importance pour une page. Mais, comme certaines pages reçoivent l'essentiel de leur trafic par Google, trop tenir compte du trafic aboutit forcément à des biais : le moteur considèrerait une page comme importante, parce qu'elle a été promue par son algo (pas bon ça). Il faut donc un facteur d'atténuation important, et ce critère doit être croisé avec d'autres. Disons que c'est typiquement le genre de critères que j'utiliserai dans un filtre antispam, pas forcément en tant que critère de pertinence majeur dans un moteur de recherche.
  13. Je vais commencer par rappeler une vérité : si ces pratiques posent problème, c'est parce que l'algo de Google est pourri. Si l'algo de Google était aussi bon que ça, ces sites existeraient, et ne sortiraient pas en tête des résultats. Et si l'algo de Google n'était pas sensible au spam, ces pratiques n'existeraient pas. Plus le temps passe, plus le web ressemble à ce que Google veut qu'il soit, et non à ce qu'il serait s'il n'était pas influencé par Google. Quand on en vient à dire qui a le droit de faire des liens vers qui, et comment ces liens doivent être négociés, sous prétexte de préserver le PageRank, on marche sur la tête. Vive le web libre ! Je veux des moteurs qui me donnent des résultats pertinents quelle que soit la nature du web, pas des moteurs qui doivent changer le web pour donner des résultats pertinents. Il faut des règles pour encadrer les pratiques sur le web, mais pas des règles dictées par les intérêts d'une seule entreprise commerciale, pour compenser les limites de sa technologie.
  14. Ce que je disais c'est que des critères de structure sont probablement pris en compte, notamment le nombre de backlinks qui pointent vers l'url de la base de ses sitelinks: La corrélation avec le PR se confirme expérimentalement, mais on ne sait pas si le score de qualité utilisé est le PR lui même ou quelque chose de cousin, et si cette corrélation n'est pas un effet de bord. Tous les autres critères sont liés au trafic et au comportement de l'utilisateur. Mon intuition est qu'utiliser uniquement des critères de trafic comporte des "biais", et qu'un score de qualité doit être "multicritères" pour être bon. En tout cas, les sitelinks sont une nouvelle preuve que nos recherches sont trackées et que les données de la toolbar ne sont pas perdues pour tout le monde
  15. On peut grace à une fonctionnalité des webmaster tools, virer un lien qui ne nous plait pas. Ensuite, un autre lien sera proposé.
  16. Euh, on ne sait pas grand chose sur les critères utilisés pour choisir les liens. Les spéculations sur les critères viennent de ce brevet : http://appft1.uspto.gov/netacgi/nph-Parser...=DN/20060287985 Et il mentionne le tracking des visites sur les pages découvertes comme l'un des facteurs, l'autre critère possible étant le nombre de liens entrants pointant vers cette page... L'objectif étant de trouver une structure, faire appel à la notion de in-degree (nb de liens entrants) me parait indispensable. J'avais remarqué d'ailleurs une corrélation presque parfaite entre PR interne et choix des liens. Ensuite, il faut choisir les liens, et d'autres facteurs deviennent plus pertinents (le nombre de clics mesuré sur le moteur). Le résultat, c'est que le choix des sitelinks est fortement corrélé au PR, et au trafic moteur, mais comme toutes ces notions sont interdépendantes, cela rend le "reverse engeneering" délicat, voire impossible. Mais "who cares". Surtout depuis que l'on peut "intervenir" sur les choix du moteur.
  17. Visiblement, Matt a réussi son coup, et a créé le trouble chez les webmasters, même les plus aguerris C'est bien la vente de liens (et non l'achat) qui est stigmatisé par Matt Cutts. Par contre, si on se réfère aux TOS, on comprend que ce n'est pas tant la vente de liens dans l'absolu qui est interdite par les conditions générales, mais toute technique de manipulation du pagerank. Donc si vous achetez ou vendez un lien publicitaire pour générer de la visibilité ou du trafic, vous ne violez pas les TOS. Mais vendre un lien à seule fin de doper le PR de l'acheteur : c'est interdit. Et si vous avez un doute, pensez au noindex, nofollow. Mais surtout ne remettez pas en cause les modèles économiques les plus courants sur le web
  18. Pour info, il y'avait des sites qui depuis quelques jours avaient un nombre de backlinks donné par link de ... zéro. C'était clairement un bug, car autant que je sache, c'est revenu à la normale (je ne trouve plus de cas, et je n'en entends plus parler).
  19. Oui cela semble bien être le cas. Hélas on ne peut jamais rien tirer comme indication d'un changement dans le décompte des backlinks fourni par Google. L'échantillon fourni est choisi suivant des critères que personne, à ma connaissance, n'a révélé ou décelé. Mais si quelqu'un a des infos là dessus, je suis preneur
  20. Avant de choisir le script qui va générer ton tagcloud, il faut choisir l'indicateur qui va te servir à calculer la taille de la police. Nombre de ventes ? Nombre d'articles dans une catégorie donnée ? Importance à tes yeux ? Attention par ailleurs, les tagclouds sont à la mode, mais ont des inconvénients. Par exemple, gare aux solutions basées sur les requêtes des internautes : certaines requêtes fréquentes font "tache" sur un site e-commerce. Nul n'a besoin de savoir que l'on cherche aussi sur ton site "sexe", "mp3" et "paris hilton". Le tagcloud doit passer par un filtre "marketing". Ensuite, le tagcloud remplit ta page de termes sur une thématique plus large que la page elle même. Ce qui n'est pas top pour le référencement. Il crée par ailleurs des liens internes, ce qui peut être favorable ou non suivant le contexte. Les tagclouds sont à la mode, tout le monde en met à toutes les sauces, il faut quand même que cela soit fait avec un objectif précis et pas n'importe comment. Pour le script, tu utilises quelle techno sur ton serveur ?
  21. Je ne partage pas du tout la thèse selon laquelle Google n'utilise plus le pagerank (en tout cas un algorithme de calcul de la popularité par les liens) en tant que critère de classement. Le fait que Google se sente obligé de sanctionner MAINTENANT des pratiques qui durent depuis des années démontre que le fait de manipuler à grands coups de liens l'algorithme du pagerank lui pose problème, et qu'ils ne savent pas contourner la difficulté. Quelque chose qui ressemble fortement au pagerank est donc toujours utilisé. Nos amis de Google ont fini par s'apercevoir que l'une des pistes pour gêner les petits malins était de ne plus rafraîchir les bases de pagerank régulièrement. Et maintenant de manipuler le contenu de la petite barre verte pour faire passer leurs messages. Donc il va falloir traiter le PR de la toolbar avec plus de méfiance qu'avant. Mais obtenir des liens de qualité continue de faire progresser vers les meilleures positions. Je prépare aussi un article dans lequel je fais le point sur les indices d'évolutions récentes de Google (sur les deux dernières années), qui démontre (c'est un peu la thèse d'Olivier Andrieu) que ce qu'on trouve réellement sous le capot est autre chose que ce que laisse supposer une carrosserie qui a peu changé au fil des années. (pardon pour le teasing, je n'ai pas pu rater l'occasion )
  22. La fuite du PR a pourtant un sens, mais l'algo est itératif, et l'interconnexion entre sites, entre pages, crée des phénomènes plus complexes que le simple : je fais un lien sortant, je vais perdre du PR. Parfois faire un lien sortant fait gagner du PR !! Si c'est possible...
  23. J'ai dit ça moi ? Une tâche impossible ? Faut que je me relise, je dis n'importe quoi Pourtant, les connaissances sont là, les technos existent en laboratoire, on peut même parfois les tester... Ce qui est vrai, c'est que cela ne suffit pas. Depuis des années aucun progrès sérieux ne semblait possible : les créateurs de moteurs semblaient incapables de concilier le souhait d'améliorer la pertinence avec les contraintes engendrées par l'obligation de faire un outil de recherche qui marche dans toutes les langues, et qui contient n'importe quel type de page web et sur n'importe quel thème. La magie d'algos du style pagerank, c'est que cela marche "universellement". Peu importe que la page soit en swahili, et qu'elle parle de la culture du petit pois sur les pentes du kilimandjaro, ça marche. Faire de l'analyse syntaxique simultanément en basque, en chinois et en finno-ougrien, c'est un travail d'hercule. Mais là on voit apparaître des idées qui allient la force brute de calcul et de nouvelles manières d'indexer les pages, et c'est une révolution, parce que c'est ce genre d'approche qui a un avenir... Un bon algo pour un moteur capable de concurrencer Google doit être universel. Maintenant, le coût d'entrée pour un nouvel acteur dans le monde des outils de recherche est devenu faramineux, celui qui détrônera Google a une sacrée tâche devant lui. La société qui a les meilleurs atouts pour révolutionner les outils de recherche est sans doute ... Google elle même.
  24. Exact. Mais comme Dan se fiche du PR, et que personne n'avait moufté quand le forum était passé à 7, c'est un non évènement. C'est bien une mise à jour globale cette fois ci, cela bouge de partout... Pour les accros du PR les pageshub sont toujours à 6.
  25. Le but est atteint : faire parler des sanctions, de manière à ce que ces sanctions soient dissuasives...
×
×
  • Créer...