Aller au contenu

Cariboo

Membre+
  • Compteur de contenus

    3 376
  • Inscrit(e) le

  • Dernière visite

Tout ce qui a été posté par Cariboo

  1. Et maintenant la 3ème partie... Les méthodes statistiques et lévalution humaine
  2. Merci Je viens de publier la deuxième partie : Utiliser un autre Rank pour défendre le PageRank C'est un peu "pointu" par moments, mais s'il y'a des points qui vous semblent obscurs, je me ferai un plaisir de vous les expliquer, dans la mesure de mes moyens (parce que je l'avoue, moi aussi, les chaines de Markov, la théorie des graphes, les extrapolations quadratiques, y'a des fois ou je suis largué et ou je me dis que j'aurais dû mieux suivre en cours de maths lol).
  3. Dans l'intérêt du site, comme tu dis, la fuite de PR minimale est obtenue par un lien depuis une seule page profonde, sur une page qui contient beaucoup de liens sortants mais majoritairement vers des pages du même site. Si tu le fais depuis toutes les pages du site sans lien retour, la fuite est bien plus importante. L'article de Jan fait allusion au fait que les sites ne sont pas des îles : le PR donné est souvent rendu. Dans certaines configurations d'environnement pour un site, faire des liens externes peut conduire à augmenter le PR localement.
  4. Sauf exception, il suffit de "googler" le titre de l'article pour le trouver.
  5. Je confirme que Gallery2 correspond à tes critères (en tout cas si tu utilises les templates qui ne contiennent ni Ajax ni Javascript, ou si tu crées les tiens). Un script très très complet et très riche (peut-être trop pour certaines utilisations).
  6. Merci pour vos encouragements Je viens de finir de taper la partie bibliographie - brevets. Si certains sont curieux, voici de quoi vous satisfaire : certains articles contiennent de véritables pépites. Les méthodes de détection du Linkspam : un challenge pour les moteurs - Bibliographie
  7. Lol, tout le monde croit qu'il y'a une loi pour tout, et pourtant... La classification est un système d'autorégulation entre éditeurs de logiciels baptisé PEGI. http://www.pegi.info/fr/ Il n'y a que les 18+ qui sont soumis à une vraie législation, mais pas de loi pour ça : le régime de ces jeux dépend du Code Pénal, et si mes souvenirs sont bons d'un article de la loi de prévention de la délinquance votée il y'a un an.
  8. Bonsoir à tous, Je publie ces jours-ci un article qui résume les découvertes que j'ai pu faire depuis quelques mois sur les méthodes de détection du link spam par les moteurs. Un grand nombre d'articles scientifiques sont parus depuis deux ans sur le sujet. A l'heure ou Google est entré officiellement en croisade (avec Matt Cutts dans le rôle du héraut) contre les manipulateurs de son pagerank, j'ai trouvé intéressant de faire le point sur les avancées dans ce domaine, et sur les conséquences à en tirer en matière de pratique de netlinking pour les mois, voire les années à venir. Comme l'article commençait à devenir très long, j'ai décidé de le découper en morceaux et de le publier sous forme de feuilleton Ce soir, premier épisode : La détection du link spam, un challenge pour les moteurs (première partie) Le deuxième épisode est pour dimanche : il y sera question de toute une série de ranks avec des noms rigolos (Spamrank, Badrank, Trustrank, Topical Trustrank, Truncated Pagerank etc...)
  9. Cela provient de la philosophie générale du développement chez Google, qui atteint parfois ses limites. Ils préfèrent développer des briques indépendantes qui s'ajoutent les unes à côté des autres, qu'une usine à gaz avec une architecture globale. C'est assez sympa au début, mais quand on veut tout réunir en un tout unique, cela pose quelques problèmes. Par exemple, la "recherche universelle" a représenté un véritable casse tête technique au début, cela a été lancé avec pas mal de mois de retard à cause de cela si j'ai bien suivi. Le problème de la non compatibilité des comptes google est un vieux problème qu'ils essaient de résoudre depuis pas mal de temps, mais sans y arriver totalement. Sur certaines applications, il y'a aussi le problème de ne pas pouvoir donner accès aux données à un tiers sans donner son mot de passe gmail. Si l'adresse mail est utilisée pour recevoir des mails perso, c'est gênant. Cela oblige à créer un compte "à part" et donc à se déconnecter et à se reconnecter sans arrêt...
  10. Un exposé très clair. Mais le problème est plus complexe qu'il n'y parait, et l'approche décrite dans le rapport Olivennes contient en germe les causes d'un échec probable. La loi ne suffira pas à régler tout le problème. Par ailleurs, j'aimerai dire que j'ai toujours eu beaucoup d'estime pour les juristes qui pensent vraiment le droit comme le produit d'une société, d'un univers réel, et pas comme une vérité absolue. Me Sioen en fait partie.
  11. Holloway, n'accuse pas le sitemap, regarde plutôt ce qui peut empêcher ou gêner le crawl sur ton site, ou même rendre l'indexation de certaines pages sans intérêt aux yeux de google...
  12. Alex, il y'a bien des "preuves" au sens mathématique du terme dans la plupart des cas que tu sites : la relativité, la mécanique quantique, la théorie des noeuds partent de résultats démontrables dans un cadre de logique formelle. Ce qui n'est pas "prouvé" mathématiquement, c'est que ces équations fournissent une description de phénomènes réels. Pour ça, on fait appel à des preuves expérimentales pour vérifier que les résultats prédits par les modèles théoriques existent bien. Mais je suis d'accord pour dire que ce qu'il faut, c'est une approche scientifique. En fait, je pense l'on parle de deux choses différentes dans ce thread : la manière dont on récolte de l'information sur le fonctionnement des moteurs, et l'optimisation des sites. Il faut une approche scientifique pour "savoir" comment fonctionne un moteur, ensuite il existe de très bons référenceurs qui démontrent que savoir comment tout cela fonctionne et même pourquoi certaines méthodes fonctionnent n'est pas suffisant, et même parfois pas nécessaire. Mais cela aide quand même de savoir
  13. La publicité pour les jeux d'argent est interdite en france. Cela risque d'évoluer, mais c'est toujours le cas...
  14. Zantar>Euh non, tout le monde ne s'accorde pas à dire ça. Ce que tu proposes par ailleurs est selon moi l'expression d'une conception négative de ce qui marche en référencement : suivre une liste de choses à ne pas faire ne te permettra pas d'atteindre ton but. Ce qui marche est un dosage subtil entre : - le respect des TOS des moteurs pour éviter pénalités et blacklistage (certes) - un savoir faire dans l'élaboration du contenu des pages, de la structure des pages, de la structure des sites, des liens qui pointent vers les pages du site - une adaptation au contexte précis dans lequel évolue ton site (concurrentiel, sémantique, stratégique, technique) C'est donc une démarche proactive, et positive : elle conduit le plus souvent à FAIRE des choses, et de manière moins fréquente à éviter d'en faire d'autres.
  15. Alex>Je suis content de voir qu'un autre référenceur décide d'enfourcher ce vieux cheval de bataille : rendre le SEO un tant soit peu scientifique... En ce qui concerne l'étude de HTML4Seo en particulier : je suis entièrement d'accord avec toi qu'il y'a un sérieux problème avec cette étude. Elle semble scientifique, mais elle ne n'est pas en réalité. La méthodologie est loin d'être décrite en détail, cela ruine la valeur de l'étude en tant que "preuve". Sur le plan même de l'interprétation du résultat scientifique, il y'aurait des choses à redire. D'ailleurs les auteurs de l'étude se sont fait étriller sur les forums anglo-saxons à cause de cela. Mais la démarche est plus que louable, et il ne faudrait pas grand chose pour corriger les défauts de l'étude. Ybet>L'époque dont je parle est déjà post google dance Thick>Je pense qu'il n'y a pas de débat sur le métier de référenceur. C'est effectivement un métier qui relève du conseil et de l'expertise, pourquoi pas de l'artisanat comme tu aimes à le dire (j'aime bien cette conception d'un artisan qui aime le travail bien fait). Pas un travail de scientifique. Par contre on peut faire appel à la science pour apprendre des choses. Alex>Je ne qualifierai pas le SEO d'aujourd'hui de "science". Par contre on peut utiliser la science (des sciences) pour apprendre des choses en SEO. Si on devait créer une science du SEO, ce serait une herméneutique la plupart du temps, c'est à dire une science de l'interprétation.
  16. J'ai oublié de souligner que je trouvais l'observation d'Ybet très juste : oui les résultats de Google sont fortement influencés par la lutte contre le spam. Du moins les premières positions. Et ce n'est pas neuf : je rappelle la panique qu'avait provoqué l'introduction de certains filtres étranges en 2003 ou en 2004, et notamment suite à l'update Florida. Ces filtres qui créent de la diversité dans les premiers résultats et éliminent certains types de spam sont toujours là et influent sur les premières positions. Et cela va encore se renforcer (lisez ce que dit Amit Singhal). Mais comme je ne gère pas de sites spammy à titre perso, que je n'en ai jamais géré, et que je ne travaille pas non plus sur des sites de ce type, cela ne joue absolument pas sur mes stratégies de référencement. Et cela ne change rien à l'importance du pagerank pour arriver sur la première page sur des requêtes concurrentielles. Un site qui aurait un bon trustrank, mais dont aucune page ne matche avec la requête, ou n'est pas suffisamment "proche" de cette requête, ou qui n'est pas jugée "importante", n'a aucune chance d'arriver en première page. Les scores à la Trustrank servent à modérer les scores d'importance des pages qui sinon squatteraient indûment les premières places. Notons que la plupart des systèmes mis en place par Google sont des filtres qui agissent sur la liste des résultats Il s'agit donc bien d'éléments fonctionnant en "surcouche" comme le dit Sébastien. Ce que l'on appelle l'algorithme de Google est en réalité un empilement de calculs de scores à des étapes successives, et une combinaison de critères. Pour sophistiquer l'algo, on ajoute des scores, des critères ou des étapes.
  17. J'hallucine que l'on prête autant de vertus à un Trustrank alors qu'il ne sert qu'à une chose : contribuer (il n'y arrive pas tout seul) à détecter les pages de spam dans l'index d'un moteur. Je viens de passer pas mal d'heures cumulées ces dernières semaines à me plonger dans tout ce qui existe dans la littérature scientifique sur les méthodes de lutte contre le spam. Et dieu sait si les articles ont fleuri depuis deux ans (j'arrive déjà à 50 références, va falloir que je fasse un tri dans la bibliographie, sinon elle sera plus longue que l'article lui-même). Cela m'a servi à préparer un article qui paraîtra sur le Hub (en principe le week-end prochain), et la conférence d'aujourd'hui sur le forum e-marketing. J'en ai déduit trois choses à propos du Trustrank (en gros les mêmes que Laurent) - il y a peu de chances que le trustrank tel qu'il a été décrit soit implémenté dans Google. Des variantes existent, et elles sont plus efficaces. - dans tous les cas, il se calcule à partir des liens sortants, donc à l'envers du pagerank - il y'a zéro chance pour qu'on puisse remplacer le pagerank par le trustrank sans perdre toute pertinence... En ce qui concerne la sémantique et les thématiques, il faut se souvenir qu'il y'a déjà beaucoup de linguistique statistique dans les moteurs... L'analyse du poids des mots permet de calculer la proximité entre la requête et les documents à classer. L'ajout d'infos sur la thématique des documents n'apporte pas grand chose à l'algorithme de classement, car : - il est parfois délicat de trouver la bonne thématique d'une requête à un ou deux mots (le mieux est de ne pas essayer, tant le risque de se tromper est grand) - les calculs de similarité sont plus simples et plus efficaces. Les histoires de "thématiques" servent surtout à améliorer les algorithmes de type pagerank chargés de déterminer l'importance des pages. Mais là encore, je crois plus en une instillation de ce genre de critères qu'à un usage massif.
  18. Je ne suis pas sûr qu'une étude ait été réalisée sur le .name pour savoir si l'extension apportait un avantage ou était pénalisante. Disons qu'en général, les extensions n'ont pas un impact sérieux sur la capacité à positionner les pages d'un site. Je n'ai d'ailleurs jamais vu de démonstration claire que cela en avait un, même s'il se dit des choses en particulier sur les .gov et les .edu.
  19. Tu parles des sitelinks visiblement. Tu ne peux pas vraiment faire grand chose pour obtenir cela, il faut que tu remplisses un certain nombre de critères pour que Google décide d'afficher ce bloc de liens. Dans la pratique, puisque je suis sûr que tu vas poser la question, il faut que sur une requête donnée, ton site apparaisse plutôt vers le haut des résultats et que tous les internautes (en tout cas une très forte proportion d'internautes) cliquent sur le lien qui mène vers ton site. Cela signifie que ton site constitue LA réponse attendue par rapport à la requête.
  20. En matière fiscale, il n'y a jamais de "trou" dans la législation. Les petits malins se font opposer par le fisc le concept d'abus de droit, un truc très franco-français, qui hérisserait le poil d'un juriste anglo saxon, mais qui existe bel et bien dans notre droit. Si utilises un dispositif de réduction fiscale dans l'esprit pour lequel il a été conçu : tout va bien. Si tu le détournes pour une autre fin : tu as droit à un redressement direct ! Donc, même si tu ne trouves pas dans la législation ce qui t'interdit de faire joujou avec le droit fiscal des associations : le fisc peut quand même y trouver à redire, et trouver des arguments à t'opposer. Par ailleurs dans tous les cas, on ne peut pas comparer les statuts d'association à but non lucratif et de SARL, qui sont deux personnes morales fondamentalement différentes dans leur fonctionnement. Utiliser une association pour pratiquer une activité commerciale "normale" présente plein d'inconvénients
  21. Tout dépend ce que l'on appelle contenu quand même. Hibou57>Qu'il ne soit pas super utile de faire travaillé un agrégé de français, un journaliste du Monde ou un prix Goncourt pour voir son site mieux référencé : c'est sûr. Maintenant, si Google ne comprend rien à ce qu'il lit, par contre ...il lit du contenu, pas rien. Et ce qui est important, c'est ce qu'on lui donne à lire. Ce que la plupart des référenceurs appellent "avoir du contenu", n'a rien à voir avec une notion de fond. Mais il faut en avoir quand même, car bien référencer un site qui n'a pas beaucoup de pages, et pas de contenu adaptés aux mots clés ciblés, c'est assez dur, et je suis payé pour le savoir (au sens propre et figuré). Donc on peut certes dire que ce n'est pas suffisant, par contre de là à dire que ce n'est pas nécessaire, voire pas important, il y'a un pas que je ne franchirais pas. Et avoir un contenu qui fait autorité dans son domaine est quand même un sacré plus.
  22. oulah ! Oui bien sûr, on se souvient. Re-bienvenue...
  23. Thick, ton explication est très claire. Pagerank, et Trustrank, font partie des critères "offpage" précalculés, qui servent à créer la note de la page et influent donc sur le classement. Mais les algos de calcul sont indépendants. En fait, la méthode est similaire, le "rank" calculé est un "pagerank biaisé" calculé à partir de quelques pages qui ont reçu une note de confiance. Mais comme toutes les pages n'ont pas de liens en provenance de ces pages de départ, certaines pages n'ont pas de "trustrank", alors qu'elles sont dignes de confiance. Ce type de score ne peut être utilisé qu'en complément du Pagerank, pas en remplacement. Le Trustrank n'influe pas sur le pagerank, mais sur le classement d'une page, oui. A noter que l'algo du Trustrank a été décrit dans un article scientifique, mais on est pas sûr que Google utilise ce système exactement comme dans l'article. En fait des informations ont filtré depuis longtemps sur l'existence d'un Spamrank chez Google, avec des caractéristiques similaires, et ceci bien avant la publication. Le problème de la méthode décrite dans l'article, c'est qu'elle laisse des pans entiers du web sans Trustrank !
  24. Après quelques heures de lutte avec le pilote de gestion de ma carte 3G+, et quelques heures d'attente pour avoir quelques barres me donnant l'espoir d' accéder au réseau, je profite de la stabilité de ma liaison GPRS (ben oui, je n'ai accès qu'à ça sur mon lieu de vacances) je vous souhaite de : JOYEUSES FETES A TOUS
  25. Disons qu'il abandonne le dogme de l'interface dépouillée... Même si c'est encore très dépouillé : mais certains tests d'interface montrent qu'ils réfléchissent à "remplir" la page un peu plus. Pour la recherche universelle : c'est déjà en place.
×
×
  • Créer...