Cariboo

3 Décembre 2007

L'essentiel des règles à connaître se trouvent dans le code électoral

http://www.legifrance.gouv.fr/WAspad/ListeCodes

Voir notamment le chapitre V sur la Propagande.

25 Novembre 2007

Il est étonnant de voir qu'ils déposent des brevets sur le simple fait qu'ils arriveraient à indexer 100 milliards de pages. Cela semblerait dire que les indexes actuels seraient limités !? A priori, les moteurs majeurs ne donnent plus la taille de leur index depuis que celui-ci a atteint 20 milliards de pages. Là, tu parles de Archives.org, qui aurait... 30 milliards de pages.

Absolument, d'ailleurs Anna Paterson et Google avaient dévoilé le pot aux roses fin 2005 : leur index primaire ne faisait que 6 à 8 milliards de pages (les chiffres varient suivant ce qu'on compte), pour le reste ils avaient recours à un index secondaire, beaucoup moins à jour, et moins complet au niveau informations, avec des temps d'accès déplorable.

Le problème, c'est que le nombre d'informations que Google veut stocker pour chaque page et chaque terme (ou groupe de termes) a aussi fortement augmenté. Donc la quantité d'information a stocker a été multipliée de beaucoup plus qu'un facteur 100 d'après ce que j'ai compris.

C'est pas le génie du moteur qui a fait le succès de Google, mais bien les liens sponsorisés contextuels. Au lieu de chercher à faire un meilleur moteur, je dis qu'il faudrait plutôt s'attaquer à mettre en place un meilleur système publicitaire.

Tout dépend de quoi on parle. Les adwords ont fait le succès financier de Google, et le principal problème des nouveaux entrants, c'est qu'ils n'ont pas les milliards de Google ou de Microsoft, et qu'ils finiront dans le meilleur des cas avalés par l'un des géants.

Mais il faut quand même rappeler l'histoire de Google : c'est un moteur sans pub qui a "explosé" Altavista en quelques mois à la fin des années 2000. Les liens sponsorisés n'ont pas été inventés par Google, et ont très longtemps fourni des ressources limitées à Google. Les adsense (la techno ayant failli aussi aller chez Yahoo) et les bénéfices records n'arrivent qu'en juin 2003. Soit après des années de fonctionnement sans modèle économique sérieux.

Pour réussir à contrer Google, il faut des ressources financières importantes ET une bonne techno. Les deux. Avec juste les moyens, on parvient seulement à exister comme pour MSN jusqu'à présent.

Sinon je suis d'accord pour les effets d'annonce : dans l'immense majorité des cas, derrière un moteur furtif, il n'y a que du vent. Là, y'a déjà une réalité : on voit le crawler Twiceler partout, et tout le temps. La plupart des moteurs furtifs, étrangement, ne crawlent rien, ce qui est toujours mauvais signe. Mais on verra bien ce qu'ils vont nous sortir, et même, si le moteur sort un jour.

22 Novembre 2007

Bienvenue sur le Hub Nix

Ca fait plaisir de te voir ici.

19 Novembre 2007

Là ou tu te trompes, c'est que ce n'est pas nouveau.

D'autres l'ont déjà fait remarquer avant toi, il y'a ... trois semaines.

Rien de neuf sous le soleil.

Et au cas ou tout le monde ne l'auraient pas encore remarqué : les admins de ce forum se fichent du PR, encore plus de celui du Hub, et le premier de ceux-qui-s'en-fichent-pas-mal-du-PR-attribué-par-Google-et-que-cela-n'empeche-pas-de-dormir est certainement : Dan :smartass:

Mais merci, c'est l'intention qui compte

12 Novembre 2007

Un très bon billet de Lionel. :thumbsup:

J'adhère à cette vision des choses.

Mais je pense que le problème va au delà du fonctionnement "en écosystème" et de l'éternelle course aux armements entre moteurs et SEO. Un sérieux progrès dans les algos fera du bien à tout le monde :

- aux internautes qui trouveront ce qu'ils cherchent

- aux moteurs, qui pourront juste perfectionner la résistance au spam de leurs algos, sans avoir besoin que l'on change le fonctionnement du web

- au monde du SEO, qui risque d'être violemment assaini s'il devient difficile de manipuler l'algo

11 Novembre 2007

En même temps, il y'a des activités légales dans tous les pays du monde.

Par exemple, je doute qu'un tribunal du Botswana prenne ombrage de l'activité de Webmaster-Hub. Dan, dors sur tes deux oreilles, c'est pas demain que tu te feras enfermer par la police du Bechuanaland dans une geôle de Gaborone pour un post même vengeur sur l'url-rewriting. :smartass:

A moins que tu ais laissé des mauvais souvenirs la bas à ton époque SudAf

11 Novembre 2007

Je serais étonné d'ailleurs que votre exemple sur les droits de la vidéo soit réel.

uh ? J'ai relu le post deux fois et je ne vois pas de quel exemple vous parlez ?

11 Novembre 2007

Cela parait impossible, mais pourtant c'est vrai...

C'est pour ça que le moteur Google est différent en Chine, et que Yahoo s'est fait condamner en France pour avoir enfreint une loi qui existe en France mais pas aux USA ! Et que le développement d'internet est un casse tête pour les juristes et un défi pour les gouvernements de tous les pays.

11 Novembre 2007

Et c'est mieux dit et de façon plus exacte par Me Alexander...

Tu peux lui faire confiance, il sait de quoi il parle...

(j'avais oublié que j'avais rédigé cet article moi : :unsure: , merci de me l'avoir rappelé)

11 Novembre 2007

Je me demande même si le positionnement des sites ne prend pas en compte des données relatives à ce fameux tracking. Je n'ai pas de certitude absolue en la matière... mais disons que quelques cas troublants me laissent penser que cette hypothèse n'est pas totalement à exclure.

Ton avis est partagé par pas mal de gens en fait. Ces hypothèses sont régulièrement balayées sur les forums pour deux raisons :

- souvent les gens ne sont pas aussi prudents que toi, en parlant de contribution simple, mais affirment que c'est LE critère. C'est évidemment faux, et c'est normal que cette hypothèse soit balayée avec cette formulation

- les indices il y'a quelques années étaient inexistants. En tout cas ce n'était pas clair. Aujourd'hui on peut se poser la question. Même si je ne serais pas surpris d'apprendre que ... ce n'est pas du tout pris en compte.

Un fort trafic n'est pas un gage de pertinence. Un grand nombre de clics sur un résultat oui. Cette donnée de tracking peut-être utilisée pour valider le bien fondé d'une évolution de l'algo (pour caricaturer, si les résultats cliqués ne sont pas souvent les premiers, mais ceux situés à partir de la position quatre, c'est que l'algo est mauvais, et que les trois premiers résultats ne sont pas considérés comme pertinents par l'internaute).

Le trafic est par contre un indice d'importance pour une page. Mais, comme certaines pages reçoivent l'essentiel de leur trafic par Google, trop tenir compte du trafic aboutit forcément à des biais : le moteur considèrerait une page comme importante, parce qu'elle a été promue par son algo (pas bon ça). Il faut donc un facteur d'atténuation important, et ce critère doit être croisé avec d'autres.

Disons que c'est typiquement le genre de critères que j'utiliserai dans un filtre antispam, pas forcément en tant que critère de pertinence majeur dans un moteur de recherche.

11 Novembre 2007

Je vais commencer par rappeler une vérité : si ces pratiques posent problème, c'est parce que l'algo de Google est pourri.

Si l'algo de Google était aussi bon que ça, ces sites existeraient, et ne sortiraient pas en tête des résultats.

Et si l'algo de Google n'était pas sensible au spam, ces pratiques n'existeraient pas.

Plus le temps passe, plus le web ressemble à ce que Google veut qu'il soit, et non à ce qu'il serait s'il n'était pas influencé par Google. Quand on en vient à dire qui a le droit de faire des liens vers qui, et comment ces liens doivent être négociés, sous prétexte de préserver le PageRank, on marche sur la tête.

Vive le web libre !

Je veux des moteurs qui me donnent des résultats pertinents quelle que soit la nature du web, pas des moteurs qui doivent changer le web pour donner des résultats pertinents.

Il faut des règles pour encadrer les pratiques sur le web, mais pas des règles dictées par les intérêts d'une seule entreprise commerciale, pour compenser les limites de sa technologie.

:evil:

11 Novembre 2007

"Le résultat, c'est que le choix des sitelinks est fortement corrélé au PR, et au trafic moteur" : c'est proche de "les rubriques/pages les plus visitées" avec un zeste de PR, si je te comprends bien ?"

Ce que je disais c'est que des critères de structure sont probablement pris en compte, notamment le nombre de backlinks qui pointent vers l'url de la base de ses sitelinks:

7. The method of claim 1, wherein the quality factor is based on a number of web pages with a link pointing to one of the plurality of web pages.

La corrélation avec le PR se confirme expérimentalement, mais on ne sait pas si le score de qualité utilisé est le PR lui même ou quelque chose de cousin, et si cette corrélation n'est pas un effet de bord.

Tous les autres critères sont liés au trafic et au comportement de l'utilisateur. Mon intuition est qu'utiliser uniquement des critères de trafic comporte des "biais", et qu'un score de qualité doit être "multicritères" pour être bon.

En tout cas, les sitelinks sont une nouvelle preuve que nos recherches sont trackées et que les données de la toolbar ne sont pas perdues pour tout le monde :hypocrite:

10 Novembre 2007

On peut lui proposer de prendre d'autres pages pour le sitelink ?

On peut grace à une fonctionnalité des webmaster tools, virer un lien qui ne nous plait pas. Ensuite, un autre lien sera proposé.

10 Novembre 2007

semble-t-il avec les rubriques/pages les plus visitées.

Euh, on ne sait pas grand chose sur les critères utilisés pour choisir les liens.

Les spéculations sur les critères viennent de ce brevet :

http://appft1.uspto.gov/netacgi/nph-Parser...=DN/20060287985

Et il mentionne le tracking des visites sur les pages découvertes comme l'un des facteurs, l'autre critère possible étant le nombre de liens entrants pointant vers cette page...

L'objectif étant de trouver une structure, faire appel à la notion de in-degree (nb de liens entrants) me parait indispensable. J'avais remarqué d'ailleurs une corrélation presque parfaite entre PR interne et choix des liens. Ensuite, il faut choisir les liens, et d'autres facteurs deviennent plus pertinents (le nombre de clics mesuré sur le moteur).

Le résultat, c'est que le choix des sitelinks est fortement corrélé au PR, et au trafic moteur, mais comme toutes ces notions sont interdépendantes, cela rend le "reverse engeneering" délicat, voire impossible.

Mais "who cares". Surtout depuis que l'on peut "intervenir" sur les choix du moteur.

8 Novembre 2007

Visiblement, Matt a réussi son coup, et a créé le trouble chez les webmasters, même les plus aguerris :?:

C'est bien la vente de liens (et non l'achat) qui est stigmatisé par Matt Cutts.

Par contre, si on se réfère aux TOS, on comprend que ce n'est pas tant la vente de liens dans l'absolu qui est interdite par les conditions générales, mais toute technique de manipulation du pagerank.

Donc si vous achetez ou vendez un lien publicitaire pour générer de la visibilité ou du trafic, vous ne violez pas les TOS. Mais vendre un lien à seule fin de doper le PR de l'acheteur : c'est interdit.

Et si vous avez un doute, pensez au noindex, nofollow.

Mais surtout ne remettez pas en cause les modèles économiques les plus courants sur le web

2 Novembre 2007

Pour info, il y'avait des sites qui depuis quelques jours avaient un nombre de backlinks donné par link de ... zéro.

C'était clairement un bug, car autant que je sache, c'est revenu à la normale (je ne trouve plus de cas, et je n'en entends plus parler).

2 Novembre 2007

Oui cela semble bien être le cas.

Hélas on ne peut jamais rien tirer comme indication d'un changement dans le décompte des backlinks fourni par Google. L'échantillon fourni est choisi suivant des critères que personne, à ma connaissance, n'a révélé ou décelé. Mais si quelqu'un a des infos là dessus, je suis preneur

2 Novembre 2007

Avant de choisir le script qui va générer ton tagcloud, il faut choisir l'indicateur qui va te servir à calculer la taille de la police. Nombre de ventes ? Nombre d'articles dans une catégorie donnée ? Importance à tes yeux ?

Attention par ailleurs, les tagclouds sont à la mode, mais ont des inconvénients. Par exemple, gare aux solutions basées sur les requêtes des internautes : certaines requêtes fréquentes font "tache" sur un site e-commerce. Nul n'a besoin de savoir que l'on cherche aussi sur ton site "sexe", "mp3" et "paris hilton". Le tagcloud doit passer par un filtre "marketing".

Ensuite, le tagcloud remplit ta page de termes sur une thématique plus large que la page elle même. Ce qui n'est pas top pour le référencement. Il crée par ailleurs des liens internes, ce qui peut être favorable ou non suivant le contexte.

Les tagclouds sont à la mode, tout le monde en met à toutes les sauces, il faut quand même que cela soit fait avec un objectif précis et pas n'importe comment.

Pour le script, tu utilises quelle techno sur ton serveur ?

30 Octobre 2007

Je ne partage pas du tout la thèse selon laquelle Google n'utilise plus le pagerank (en tout cas un algorithme de calcul de la popularité par les liens) en tant que critère de classement.

Le fait que Google se sente obligé de sanctionner MAINTENANT des pratiques qui durent depuis des années démontre que le fait de manipuler à grands coups de liens l'algorithme du pagerank lui pose problème, et qu'ils ne savent pas contourner la difficulté.

Quelque chose qui ressemble fortement au pagerank est donc toujours utilisé.

Nos amis de Google ont fini par s'apercevoir que l'une des pistes pour gêner les petits malins était de ne plus rafraîchir les bases de pagerank régulièrement. Et maintenant de manipuler le contenu de la petite barre verte pour faire passer leurs messages.

Donc il va falloir traiter le PR de la toolbar avec plus de méfiance qu'avant. Mais obtenir des liens de qualité continue de faire progresser vers les meilleures positions.

Je prépare aussi un article dans lequel je fais le point sur les indices d'évolutions récentes de Google (sur les deux dernières années), qui démontre (c'est un peu la thèse d'Olivier Andrieu) que ce qu'on trouve réellement sous le capot est autre chose que ce que laisse supposer une carrosserie qui a peu changé au fil des années.

(pardon pour le teasing, je n'ai pas pu rater l'occasion :whistling: )

27 Octobre 2007

La fuite du PR a pourtant un sens, mais l'algo est itératif, et l'interconnexion entre sites, entre pages, crée des phénomènes plus complexes que le simple : je fais un lien sortant, je vais perdre du PR.

Parfois faire un lien sortant fait gagner du PR !! Si c'est possible...

27 Octobre 2007

j'espérai que dans les moteurs du futur, la lecture des contenus allait progresser, or tu sembles dire que c'est tâche impossible, que le savoir faire ou les connaissances

J'ai dit ça moi ? Une tâche impossible ? Faut que je me relise, je dis n'importe quoi

Pourtant, les connaissances sont là, les technos existent en laboratoire, on peut même parfois les tester... Ce qui est vrai, c'est que cela ne suffit pas.

Depuis des années aucun progrès sérieux ne semblait possible : les créateurs de moteurs semblaient incapables de concilier le souhait d'améliorer la pertinence avec les contraintes engendrées par l'obligation de faire un outil de recherche qui marche dans toutes les langues, et qui contient n'importe quel type de page web et sur n'importe quel thème.

La magie d'algos du style pagerank, c'est que cela marche "universellement". Peu importe que la page soit en swahili, et qu'elle parle de la culture du petit pois sur les pentes du kilimandjaro, ça marche. Faire de l'analyse syntaxique simultanément en basque, en chinois et en finno-ougrien, c'est un travail d'hercule.

Mais là on voit apparaître des idées qui allient la force brute de calcul et de nouvelles manières d'indexer les pages, et c'est une révolution, parce que c'est ce genre d'approche qui a un avenir... Un bon algo pour un moteur capable de concurrencer Google doit être universel.

Maintenant, le coût d'entrée pour un nouvel acteur dans le monde des outils de recherche est devenu faramineux, celui qui détrônera Google a une sacrée tâche devant lui. La société qui a les meilleurs atouts pour révolutionner les outils de recherche est sans doute ... Google elle même.

27 Octobre 2007

Exact. Mais comme Dan se fiche du PR, et que personne n'avait moufté quand le forum était passé à 7, c'est un non évènement.

C'est bien une mise à jour globale cette fois ci, cela bouge de partout... Pour les accros du PR les pageshub sont toujours à 6.

26 Octobre 2007

Une chose est certaine, c'est que cette affaire qui fait augmenter le nombre de posts sur tous les forums, doit bien faire rire les employés de Google !

Le but est atteint : faire parler des sanctions, de manière à ce que ces sanctions soient dissuasives...

25 Octobre 2007

Tu as raison Dan, cette analyse de HawkEye est intéressante (sauf qu'il y'a une chance qu'elle soit fausse, car inspirée par le contexte : Google fait la chasse au vendeurs de liens). Il faut d'ailleurs en tirer quelques conclusions : si la "pénalité" provient bien de la perte du pagerank transmis par certains sites, ce sont les clubs d'échanges de liens "VIP" qui sont visés, pas forcément des gens qui vendent des liens.

Caractéristique de ces "clubs" : tout le monde fait des liens vers tout le monde... Une mini ferme de liens.

Je rappelle que les TOS de Google interdisent un large spectre de pratiques en matière de linking

Ne participez pas à des systèmes de liens conçus pour améliorer artificiellement le classement PageRank de votre site. Évitez tout particulièrement les liens vers des spams ou les "sites douteux" sur le Web, car ces liens risqueraient d'avoir une incidence négative sur le classement de votre site.

Donc peu importe qu'un lien soit vendu ou pas, dès que sa présence est perçue comme artificielle, Google peut "pénaliser" le site.

24 Octobre 2007

Juste au cas où : quelle est la version de Mysql que tu utilises ?

Connexion

Cariboo

Compteur de contenus

Inscrit(e) le

Dernière visite

Type de contenu

Profils

Forums

Messages postés par Cariboo

elections municipales

Cuill veut surpasser Google

CSV Adstats 4.0 ...

Chute de PR pour Webmaster-Hub ?

Les sites poubelles du Web

Question sur une publication de Cariboo

Question sur une publication de Cariboo

Question sur une publication de Cariboo

Question sur une publication de Cariboo

Question et indices sur le sitelinks

Les sites poubelles du Web

Question et indices sur le sitelinks

Question et indices sur le sitelinks

Question et indices sur le sitelinks

Achat de liens défendu ?

Mise a jour BL dans Google

Mise a jour BL dans Google

Mise en place d'un nuage de mot clé

le Pr sert-il toujours dans le classement des sites?

Google brouilleur de pistes...

MAJ PR c'est parti

MAJ PR c'est parti

Google brouilleur de pistes...

Google brouilleur de pistes...

Quel encodage/charset choisir ?

Parcourir

Activité