Aller au contenu

Cariboo

Membre+
  • Compteur de contenus

    3 376
  • Inscrit(e) le

  • Dernière visite

Tout ce qui a été posté par Cariboo

  1. L'auteur de cet article est un chantre du peer to peer, cela explique ce "tropisme" vers l'une des évolutions possibles du web. En fait, mon opinion c'est qu'il se trompe... L'avenir tel qu'il le décrit n'est que l'une des évolutions qui se fera jour. Pour moi le web 3.0, ce sera bien ce qu'il dit, mais les internautes n'hébergerons que leur propre contenu par le biais d'applications peer to peer beaucoup plus variées qu'aujourd'hui. L'auteur a une trop haute opinion des capacités techniques des internautes je suis d'accord avec Léonick. Le web 3.0, ce sera aussi l'inverse : l'avènement des applications partagées (de l'ASP quoi). Ce qui veut dire que l'on partagera plus souvent ses fichiers, mais aussi que certaines de nos applications seront déportées sur des serveurs centralisés, et les fichiers générés hébergés on ne sait où. Dans quelques jours, Google lancera GAFYD pour les grands comptes, c'est très emblématique de cette évolution ! Le web 3.0, ce serait aussi l'ère des mashups généralisés : plus d'applicatifs géants intégrés, plus de portails verticaux, mais l'intégration personnalisée d'outils, certains présents sur vos machines, d'autres sur le web.
  2. Clairement, les sitelinks sont un plus quand on en bénéficie... par erreur. Au début, le système n'était pas super au point, et les sitelinks apparaissaient parfois sur des mots clés qui n'étaient pas le nom de la société ou de la marque. Dans ce cas le coup de boost est très notable (j'en ai bénéficié sur plusieurs mots clés). Mais en temps normal, si je cherche le site de nike, que je vois apparaître le lien vers le site officiel en 3e position, ou en 1ère dans les sitelinks, je clique à chaque fois sur le lien du site officiel. Le gain est réel mais marginal. Le premier effet positif en général est de faire grimper les sites corporate en première position. J'entend parfois "pour que les sitelinks apparaissent, il faut que le site soit en première position". En fait c'est l'inverse : un site bénéficiant d'un sitelinks apparait toujours en première position, même si son score ne le permettrait pas en temps normal.
  3. Cette phrase probablement une allusion à un article d'Hector Garcia Molina sur les stratégies de collusion pour doper son référencement. J'avais évoqué cet article dans une intervention l'an dernier au cours du W3-Campus 2006. Fin 2005 il y'a eu un festival de publications scientifiques sur le sujet du spamdexing, ce qui est intéressant est ce que l'on peut lire en creux au milieu de l'exposé des méthodes de détection déjà utilisées ou proposées : il y'a des méthodes difficiles à détecter, et certains types de galaxie de sites créés artificiellement ressemblent trop à des situations réelles rencontrées sur le web pour être distinguées.
  4. A propos des réseaux de neurones, des algorithmes bayésiens et génétiques : ces outils peuvent également servir à construire des moteurs de recherche performants. Donc oui Dams41 il est intéressant d'en discuter. D'ailleurs, il y'a eu pas mal de tentatives dans différents labos de recherche français (notamment à l'INRIA). Mais certains indices laissent penser que ces outils ne sont pas utilisés par Google, et même par la plupart des moteurs "grand public".
  5. Les "boucles" spip que l'on trouve dans les modèles sont en fait des programmes en php. Il est donc tout à fait possible (je le fais tous les jours) de mélanger un code php existant avec du code spip pour afficher le contenu spip au milieu d'une page dynamique existante.
  6. Laurent, tu as raison, mais dans un autre contexte. Là je parle dans le contexte des statistiques, et, en statistique, on appelle fréquence le rapport entre l'effectif d'une valeur et l'effectif total. Plus de notion de temps. C'est bien le problème, lorsqu'on utilise un mot "hors contexte", il est souvent mal compris. A force d'en parler, j'ai fini par comprendre ce qui me gênait dans le terme densité. C'est la confusion avec la "densité de population" qui est une mesure qui a une dimension (elle se mesure en habitants au km2). Quand on leur parle de "keyword density", j'ai observé que certains voyaient une mesure du nombre de mots rapporté à la taille de la page. C'est ce télescopage que je trouve malheureux, car il conduit à des erreurs de raisonnement que l'on retrouve dans les forums de SEO.
  7. Ceci dit, en toute rigueur, rien n'interdit d'appeler densité le ratio nombre d'occurrences / nombre total de mots. Quand je parle de fréquence, c'est bien la même définition. Dans la notion habituelle de densité (ou de fréquence des termes), la longueur du document n'est pas prise en compte. Un mot présent une fois dans un texte de 100 mots, aura la même fréquence qu'un mot présent deux fois dans un texte de 200 mots. Quand je dis que je me méfie de l'appellation densité, je fais allusion aux connotations propre au monde du référencement pour ce terme, et aussi au parallèle malheureux fait avec la notion habituelle de densité (poids volumique / poids volumique). Parce que si on parle de "poids" des termes, cela devient autre chose, dans une mesure de type tf*idf, le poids est donné par la formule tf*idf, et ce que l'on appelle densité, n'est que tf. En voila une question qu'elle est bonne Effectivement, comme toi, je pense que cette notion de "langage naturel" n'a plus beaucoup de sens, et en a de moins en moins avec le temps. Car plus le temps passe, plus les termes contenus dans les pages web y sont placés par des programmes ou proviennent de publicités, la part du contenu réellement 100% naturel diminue. C'est d'ailleurs pour cela que le corpus constitué par les pages web est différent de ce que l'on trouve dans les livres, et que la "norme" du langage dans les pages web, n'est pas celle du Littré. Donc quand Google nous dit "écrivez en langage naturel", ils font fi d'une réalité que pourtant ils connaissent bien. Et je ne parle même pas du spam. Il faudrait plutôt dire toujours "faites des pages pour les internautes, pas pour les moteurs", à la rigueur. Mais ça aussi c'est faire fi des enjeux, et des imperfections des moteurs. Ca on est d'accord. Il y'a trop de paramètres inconnus qui parasitent les tentatives d'expérience, et une approche 100% scientifique du problème est impossible. Tout cela reste empirique. Le fait de savoir certaines choses permet juste d'éviter de se fourvoyer et de mieux voir la lune derrière le doigt qui l'indique.
  8. lol ! J'ai l'impression que tu m'as bien compris. Je vais juste préciser deux trois trucs pour éviter que tes formulations soient mal interprétées par d'autres. Sauf que formulé comme cela et sorti du contexte, cela devient faux. Il ne s'agit pas d'une "densité", le terme est impropre et trop connoté, mais d'une fréquence. Et ce n'est pas "une" fréquence qui constitue le critère, mais l'ensemble des fréquences de tous les termes. Sans compter qu'il existe un ordre caché dans ces stats (de niveau 2) qui révèle les relations entre ces termes. Relation que l'on peut aussi prendre en compte au plus bas niveau en tenant compte de la distance entre les termes... Bref, isoler dans le raisonnement la fréquence d'un seul terme conduit souvent à de fausses conclusions. Attention, tu as parfaitement raison, mais je ne crois pas que les suroptimisations soient détectées et prises en compte dans l'algo de base. Il me semble par contre facile de faire un filtre antispam sur ce genre de critères pour détecter des pages anormales et de les déclasser automatiquement (toujours le distinguo chez Google entre "filtre" et "algorithme de classement"). Etudier les 30 premiers résultats (plutôt les 100 d'ailleurs) en aspirant les snippets pour les triturer à grand coup d'outils de statistiques linguistiques permet effectivement d'en tirer des conclusions valables pour savoir comment doper une page de termes idoines avec le bon dosage pour arriver en tête des résultats. Mais l'étude des densités seules ne donnera rien. Il faut étudier les taux de cooccurrence, et savoir utiliser la méthode. Les expériences que j'ai menées m'ont montré que le jeu n'en valait pas la chandelle. Déjà il faut passer du temps pour acquérir l'expérience nécessaire pour utiliser les résultats intelligemment. Ensuite le fait de ne pas connaître suffisamment d'infos sur le corpus (l'index du moteur) fait que tout cela est approximatif. Et de toute façon, écrire en langage naturel est moins compliqué ... Tu as raison, c'est bien le problème. Les critères "in page" changent radicalement le classement obtenu à partir du seul poids des termes, c'est ce qui rend vain un travail systématique sur la densité de mots clés.
  9. Dans ce modèle, deux vecteurs qui sont orientés de la même façon (ils ont donc un angle nul entre eux) représentent deux documents dont les coordonnées dans l'espace "sémantique" sont réparties de la même façon. Ce sont probablement des documents parlant d'un thème commun. Par contre ces deux vecteurs n'ont pas forcément la même longueur... La projection de cette "longueur" sur chaque axe mesure le poids de chaque terme dans ce document. Sauf qu'il y'a plusieurs manières de calculer le poids d'un terme dans un document. Mais en règle générale, on pondère le poids d'un terme dans un document donné par la fréquence des documents contenant ce terme. Ce qui permet d'éliminer le "bruit de fond" dû aux mots les plus courants. Déjà, le fait de savoir cela permet de comprendre pourquoi la notion de densité normale est variable : elle varie d'un document à un autre, et d'une requête à une autre. Le terme "globicéphale" est présent dans un faible nombre de documents rapporté au nombre de pages web. La présence de deux fois le terme globicéphale dans une page en fait un document pour lequel le poids "globicéphale" va être très important. Si on rajoute une fois baleine, et une fois cétacé, cela oriente la page dans une direction qui la fera "matcher" plutôt avec une requête sur les cétacés que sur autre chose. A l'inverse, la présence d'une seule occurrence du mot "web" sera quasiment sans effet, car le poids de ce terme va être jugé ridicule. La longueur du vecteur permet de classer les documents entre eux. Le seul problème c'est qu'entre deux documents "orientés" de la même façon, celui qui a le vecteur le plus long n'est pas forcément le plus pertinent. C'est juste celui dont le poids des termes projeté dans une direction donnée est le plus élevé (cela fait longtemps qu'on ne confond plus similarité et pertinence) Donc ceux qui fabriquent les moteurs de recherche ont appris à pondérer les critères liés au poids des termes avec d'autres critères (comme le pagerank, mais aussi tous les subtils critère "in page") qui eux sont là pour augmenter la pertinence des réponses telle qu'elle est attendue par l'internaute. Bref pour résumer : 1°) Le keyword stuffing a plus ou moins d'effet en fonction de la requête ciblée. Cela dépend, non pas du caractère concurrentiel ou non de la requête, mais de la rareté ou non des documents contenant les termes ciblés (ceci dit, si la requête est concurrentielle, les pages contenant ces termes se multiplient rapidement) 2°) Dans la plupart des cas, les méthodes "bourrines" de keyword stuffing rendent la page moins pertinente sur les requêtes à plusieurs mots (dommage...). Les méthodes "scientifiques" étant par ailleurs plus difficiles à utiliser que la rédaction en langage naturel, cette dernière méthode est préférable. Je rappelle au passage que cela rend aussi vos sites plus intéressants Et pourtant ! Non partir de statistiques faites à partir de la langue des livres donne des résultats terriblement mauvais sur le web. Ce qui est analysé c'est bien le contenu des pages web indexées, pas autre chose.
  10. En fait, c'est le fait de potasser les méthodes statistiques utilisées par les linguistes qui m'a fait comprendre pourquoi, sans penser à des filtres sophistiqués, le "keyword stuffing" pouvait avoir des conséquences néfastes... Un moteur cherche à déterminer, une requête étant donnée, un classement des pages les plus "pertinentes". Ce classement utilise différentes méthodes (calculs de distance=similarité, calculs probabilistes...) pour déterminer les pages les plus proches de la requête. De nombreux autres critères pondèrent ces résultats pour éviter que trop de pages ayant des notes proches soient fournies à la queue leu leu, ces critères complémentaires permettent donc d'améliorer la pertinence perçue par l'internaute. Toutes les méthodes de calcul poursuivent le même objectif, donc les mêmes causes produisent les mêmes effets. Si on prend la plus classique, et la plus intuitive (le cosinus de Salton), on definit un espace vectoriel à N dimensions (N étant égal à l'ensemble des termes signifiants présents dans le corpus (l'ensemble des pages web indexées), c'est à dire un nombre très grand). Dans cet espace vectoriel, chaque axe permet de représenter la similarité par rapport à un terme. Un document est donc symbolisé dans ce modèle comme un vecteur dont l'orientation dans l'espace (ses coordonnées spatiales) définit (pour schématiser) son thème. Une requête de quelques mots est elle aussi un document qui peut également être symbolisé par un vecteur dans l'espace vectoriel de Salton. Un simple calcul de distance permet de savoir quels sont les documents "proches" sémantiquement de la requête. L'ajout d'un seul mot dans un document change subtilement l'orientation dans l'espace du document. L'ajout d'un paragraphe sur le même thème aura tendance à changer aussi l'orientation, mais globalement, l'orientation du vecteur dans l'espace restera identique, à peu de choses près... Le keyword stuffing par contre fait dévier le vecteur plus vite. Or le problème, c'est que les coordonnées ne sont pas calculées uniquement par rapport à des infos statistiques sur le document et la requête, mais sur toutes les pages web !! Ce qui veut dire qu'en général, on ne connait pas les coordonnées de la requête dans cet espace là, donc le keyword stuffing peut tout aussi bien éloigner de la bonne position que s'en rapprocher. C'est ce que l'on observe empiriquement. Avec ce modèle en tête, on se rend compte assez vite que le keyword stuffing marche par construction sur des requêtes à un ou deux termes, mais que cela devient plus aléatoire dès que l'on dépasse trois termes. Mal pensé, l'ajout de mots clés entraine généralement dans ce cas un impact négatif. Or les requetes à trois mots et plus deviennent la norme... C'est pour cela que jouer sur la densité de mots clé devient une mauvaise idée. Il faut ajouter que la proximité est avant tout une question d'"angle", mais que si on prend en compte le poids des termes (la longueur des vecteurs projeté sur chaque axe), alors tout dépend des autres critères de l'algo et de leur pondération. Il est clair que chez tous les moteurs grand public, un équilibre subtil existe entre les deux, ce qui permet à des documents qui ne possèdent pas l'expression recherchée répétée des dizaines de fois sur la page de sortir dans les premières positions.
  11. Citation d'un échange sur google groups Traduction : John a complètement raison : écrivez naturellement Et je vais vous faire partager un petit secret sur l'algo. Il n'y a pas un seul nombre magique. Les gens qui annoncent que "la densité optimale recommandée est de X% connaîtront le même sort de la part de leur professeur de français, d'un Googler ou d'un Webmaster. [à savoir qu'ils se feront taper sur les doigts pour avoir fait trop de répétitions] C'est un point que je répète régulièrement. Les moteurs de recherche font un usage immodéré de la linguistique statistique dans leurs algorithmes, ce qui veut dire que s'éloigner de la norme a des conséquences pénalisantes en général en terme de référencement. Une densité anormale peut éloigner un document de la similarité maximale avec une page donnée, voire déclencher un filtre qui va détecter une suroptimisation. En tout état de cause, le critère de densité par mots clé est tout sauf pertinent, car les statistiques sur le corpus (toutes les pages de l'index) sont tout aussi importantes pour savoir si une page peut oui ou non sortir en bonne position sur une requête donnée. Le problème c'est qu'en même temps, il y'a forcément une corrélation nette entre densité de mots clés et bon positionnement, mais c'est un "effet de bord" et non la cause. (Adam Lasnik est ingénieur chez Google, et travaille dans l'équipe de Matt Cutts)
  12. Il existe visiblement de multiples problèmes avec les paiements Adsense en Algérie. Tu auras quelques infos sur le forum officiel google adsense http://groups.google.fr/group/adsense-help...nk=li&hl=fr
  13. La vraie référence, c'est Comscore ou Nielsen Netratings. Evidemment, il faut casser sa tirelire pour avoir accès à leurs données, et mieux vaut avoir un gros trafic sinon on n'apparait pas dans les sites consultés par le panel. Quand aux courbes en dents de scie sur Alexa : c'est normal, d'ailleurs depuis peu ils proposent un paramètre permettant de lisser les résultats qui s'avère bien utile.
  14. Si tu veux te mettre à ton compte, je te suggère de faire aussi (ou plutôt) un mastère de gestion. S'il n'y avait que la technique pour réussir, tous les ingénieurs feraient comme Bill Gates, et le syndrome de Dilbert n'existerait pas sur les salaires des ingénieurs.
  15. BONNE ANNEE A TOUS LES MEMBRES, LECTEURS, LES "PLUS", LES ADMINS, LES MODOS ...
  16. Bienvenue sur le Hub Exagirl Vu le nombre de gens passionnés par les outils de recherche sur le Hub, tu dois t'attendre à être souvent questionnée.
  17. Webmaster-hub ! Qui est effectivement classé dans ce top 100. Merci Régis de nous avoir signalé cette info...
  18. Lorsque l'on a un visitorat faible mais très ciblé, le plus rentable est de vendre des emplacements à l'année contextualisés : faire sponsoriser une rubrique en gros. Les annonceurs sont prêts à payer plus. Le hic, c'est qu'aucune régie ne vend cela, il faut se débrouiller tout seul. Au passage, un rappel : CPM veut dire coût pour mille. Que cela soit mille visiteurs, affichages, mille carrottes, ou mille poires, c'est toujours un CPM. Par exemple, dans la location de fichiers, on parle aussi de CPM : mais c'est le coût d'un millier d'adresses. Autrefois, on parlait de prix au kilo (notez bien que cela veut dire exactement la même chose) mais cela fait plus chic de parler de CPM
  19. Comme d'habitude, le débat tourne en rond parce que certains oublient que dans un moteur de recherche, on cherche d'abord à déterminer non pas les pages les plus visitées, les plus populaires, ou les plus importantes, mais les plus "pertinentes" sur une requête donnée. La notion de pertinence sur une requête donnée est subtile, il s'agit d'abord d'un critère de similarité entre la requête et la page, critère qui est ensuite affiné/pondéré par d'autres critères qui ont tendance à privilégier les pages importantes, les pages de confiance ou les pages répondant à certains critères de qualité (pour simplifier en une phrase ce qui prendrait cent pages à développer). Le résultat, c'est qu'une page avec un PR0 peut arriver en première position sur une requête donnée, devant une page avec un PR7. Si cette page est beaucoup plus "similaire" à la requête que la deuxième, il est normal qu'elle passe devant. C'est plus improbable sur une requête qui appelle un grand nombre de pages en réponse. Statistiquement, des centaines de pages vont scorer haut sur les critères de similarité, l'écart entre les scores des premiers étant le plus souvent réduit. Dans ce cas, avoir un pagerank élevé fait gagner des places. Mais un PR4 peut encore passer devant la page avec un PR7. Si la requête est concurrentielle, il y'a fort à parier que quelques uns ont optimisé correctement leurs pages sur une requête donnée, dans ce cas, tout est très resserré dans les premières positions, et avoir un fort PR est nécessaire pour sortir dans les premières positions. Mais là encore, avoir un PR 7 ou 8 ne garantit pas d'être premier !
  20. Le mode d'exercice est important (les moyens consacrés pour gagner les sous). Sur le plan fiscal, la bonne approche est de regarder les faits en face, le fisc se fiche des arguties juridiques ou des montages tarabiscotés pour "redresser" en fonction de la réalité du fonctionnement. Dans le contexte d'un site web, j'aurai tendance à dire que les revenus tirés de l'affiliation auprès d'un intermédiaire (plateforme d'affiliation) sont de même nature que ceux tirés des autres pubs. Bref, cette activité est clairement "commerciale". Non cela ne rentre pas bien dans une activité civile, sauf si cette activité reste marginale par rapport au reste de l'activité, et si le volume de l'activité commerciale reste limité.
  21. L'objectif, dans un algorithme de classement, est de garantir la pertinence des réponses. Dans cet objectif, classer les résultats en fonction du trafic de la page n'apporte en rien une garantie que tel résultat qui sort en première position pourra être la réponse pertinente à une recherche donnée. Le pagerank a pour objectif de déterminer l'importance de la page. C'est une notion qualitative, et non quantitative.
  22. A propos de Symfony (rendons à César...) précisons que le projet est porté par la très sympathique et très compétente équipe de la web agency Sensio, c'est à dire des frenchies (cocorico) ... Bon d'accord je ne suis pas très objectif, mais le framework mérite le détour, il n'y a pas que moi qui le dit.
  23. En principe, cela ne pose aucun problème... Le problème provient probablement du code que tu stockes dans ta bannière. Parce que sinon, charger du flash dans phpadsnew, ce n'est pas plus compliqué que d'intégrer du gif animé. Donc je suppose que tu insères soit un code de redirect, soit un javascript, soit du HTML. Si tu pouvais poster le code, on pourrait jeter un oeil dessus,
  24. Non, cliquer sur le lien pointant vers la page de résultat envoie vers cette page tampon en lieu et place de la page... Cette page a cette url : http://www.google.fr/interstitial?url=http...ympadutout.html
  25. Je n'avais jamais remarqué cela, ni entendu parler de cette fonctionnalité. Google détecte les spywares, et avertit l'internaute quand il clique sur un résultat qui en contient un ! Certains connaissent déjà sûrement, mais cela m'a étonné donc je poste l'info ici. Voici le message type que j'ai reçu en cliquant sur un résultat apparemment pas très catholique :
×
×
  • Créer...