Aller au contenu

Cariboo

Membre+
  • Compteur de contenus

    3 376
  • Inscrit(e) le

  • Dernière visite

Messages postés par Cariboo

  1. Non, les sitelinks ne sont pas liés au Trustrank ou n'importe quel système de notation sur le caractère "spammy" ou non du site. Cela n'a rien à voir.

    Je sais Régis que tu n'as rien inventé et que c'est ce qui se dit dans d'autres forums et aussi dans les forums américains, mais c'est du grand n'importe quoi (comme souvent).

    Il s'agit d'un système basé sur la reconnaissance des entités nommées. Et même plus précisément sur une reconnaissance "par abstraction".

    Ce système permet de reconnaître dans un texte des marques ou des noms de société. Et d'étiqueter automatiquement ces "noms propres" en les associant à des catégories. Ce qui permet de découvrir qu'un site donné est en fait "le site officiel de la marque".

    Lorsque le site remplit les critères pour être sans ambiguïté "le site de la marque", et que la marque n'a pas d'homonymes qui gêne son identification, une requête sur le nom de la marque produira la représentation en sitelinks.

    La découverte de ces "sites de marques", de ces "sites corporates" est automatique, et ne se base pas sur une liste préétablie de sites de confiance.

    Ensuite, le choix des "points d'entrées" complémentaires se fait effectivement sur l'analyse de la structure des liens internes, mais aussi sur l'emplacement, le nombre, et l'importance des liens entrants (ce que google oublie d'expliquer).

    Ce qui fait que la structure "mise en avant" par les sitelinks est parfois bien différente de la structure réelle.

    Les indications données par Google sur ce que sont les sitelinks sont un modèle de non information. Et même de désinformation.

  2. Ce message est inévitable si ton flash est en pièce attachée dans un fichier MIME. Si tu le télécharges à l'ouverture dans outlook tu auras l'alerte de sécurité Active X effectivement. Dans d'autres clients mail par défaut cela ne se téléchargera pas non plus.

    D'une manière générale, envoyer un email avec un flash intégré n'est pas une bonne idée, car trop peu de gens pourront voir le flash s'afficher à l'ouverture.

    La solution (frustrante) consiste à créer un mail html incitant au clic, le clic déclenchant l'affichage du flash.

  3. Hmm ! Je ne suis pas sûr qu'ils doivent revoir leur FAQ tout de suite.

    En fait, Googlebot respecte depuis fort longtemps une série de critères pour détecter d'éventuels "pièges à robots d'indexation" c'est à dire des situations dans lequel, en indexant une page, on trouve toujours de nouvelles url à indexer qui en fait ne sont que la même version de la même page avec des paramètres différents. Le système a dû se sophistiquer au fil du temps, mais jadis il faisait déjà la différence entre un id correspondant à un numéro de membre par exemple et un id identifiant une page.

    Bref si l'id est une variable de session, un identifiant externe au contenu de la page etc... etc... je dirais : méfiance méfiance

    Même chose pour tout paramètre qui crée des url différentes pour rien.

    En clair si les url sont du style :

    www.mondomaine.com/page.php?rub=1&id=23

    et que

    www.mondomaine.com/page.php?rub=1&id=24

    est une page avec un contenu différent, en général, google se débrouille

    par contre si c'est deux fois la même page : pas bon. Dans ce cas le robot d'indexation peut très bien dire "stop !"

    Je ne sais pas si la nouvelle version de sitemap donne des indications en cas de "bot trap" rencontré, mais ce serait intéressant d'avoir des retours à ce sujet.

  4. D'accord avec Dan pour dire que l'url rewriting n'est pas la panacée, et croire que l'on a fait quelque chose de très utile au référencement après avoir créé un .htaccess savant c'est souvent mal utiliser son énergie. En clair le secret est dans la page ou le titre, le poids des mots clés dans l'url n'étant pas gigantesque.

    Maintenant c'est clairement un plus, ne me faites pas dire ce que je n'ai pas dit.

    Grasshopper, dans certains cas, avoir 100 liens pointant vers d'autres pages que celle que tu veux référencer, mais correctement reliées à cette page cela peut donner de bons résultats aussi... La structure des liens à l'intérieur du site est importante à prendre en considération.

    En fait les stratégies sont différentes selon :

    - que l'on veut promouvoir une page, en se fichant des autres (faire pointer tous les liens vers cette page)

    - que l'on veut promouvoir toutes les pages, qu'elles disposent de liens entrants ou non (créer une structure de liens répartissant uniformément le PR)

    - que l'on veut promouvoir une partie du site (créer un piège à PR)

  5. Danny Sullivan fait partie des quelques personnalités mondiales qui comptent dans le monde du référencement.

    C'est l'âme du site Seachenginewatch, qui constitue (à mon avis) la source d'informations la plus intéressante du net sur les outils de recherche et le référencement (la source la plus fiable en tout cas).

    Voilà plusieurs années, Danny avait vendu son site à Jupiter Media, et ensemble ils avaient développé les conférences SES.

    Mais Jupiter Media a vendu l'ensemble à Incisive Media l'an dernier, et apparemment, la relation entre Danny et Incisive Media n'est pas aussi bonne.

    Suite à un différent financier, Danny a annoncé son départ : il quitte searchenginewatch.com le 1er décembre, et ne participera plus aux SES à partir de cette date.

    Ceci va faire perdre pas mal de saveur aux prochaines SES, c'est une certitude !

  6. Oui, je sais, je n'ai plus besoin de lumière pour lire dans le noir... Mais ça fait fuir un peu l'entourage.

    C'est terrible ce truc, on ne peut plus paître tranquille, même dans le grand nord.

    Pour une introduction à la sémantique appliquée aux moteurs de recherche, il y'a aussi :

    La sémantique appliquée et les outils de recherche

    et la rubrique : La sémantique appliquée au référencement et aux moteurs de recherche

    Et avant que quelqu'un me repose la question, le cycle d'articles sur cette thématique est toujours en cours de rédaction. J'ai pratiquement terminé la partie sur le web sémantique (il me reste à finir la partie sur les balises sémantiques, ce qui n'a rien à voir, mais comme tout le monde confond, il faut bien que j'en parle rien que pour dire qu'il ne faut pas confondre).

    Une fois ces articles publiés, on va pouvoir attaquer le dur, c'est à dire une présentation plus détaillée des méthodes utilisées en linguistique statistique et sémantique appliquée aux outils de recherche.

    Je progresse moins vite que prévu parce que je manque de temps et qu'en ce moment, mon "dada" c'est plutôt l'Intelligence Artificielle et ses applications. D'ailleurs, je prépare une application à base d'IA pour le 1er octobre... J'en reparlerai ici car j'aurai besoin de "testeurs".

  7. Oui, en même temps ne nous emballons sur cette histoire de sémantique.

    Certains savent que j'ai pas mal bossé la question, et je continue à le faire, et ce que j'ai appris c'est que si Google utilise abondamment la linguistique statistique et les mesures de similarité, leur utilisation des outils de sémantique linguistique appliquée est assez embryonnaire.

    Bref tout cela est une vaste histoire de calculs statistiques, de calculs matriciels, de recherche de vecteurs propre et de normalisation, mais en aucun de chercher à comprendre ce que l'on dit dans les pages.

    On soupçonne Google d'avoir implémenté deux ou trois choses depuis un peu plus d'un an permettant de donner une importance supérieure aux liens provenant de sites autorités sur une question donnée, et de favoriser les sites faisant des liens avec des sites de la même thématique, mais on ne sait pas comment c'est fait exactement.

    Et à vrai dire, plusieurs méthodes peuvent marcher, dont certaines n'ont rien à voir avec la détermination du "sens" du contenu.

    Ce qui veut dire que tu as raison de faire remarquer Zantar que Google favorise les structures de liens logiques et "naturels" sur les échanges de liens artificiels dont la seule justification est le référencement. Mais je tenais à mettre en garde les autres lecteurs contre une interprétation erronée de la nécessité de travailler la "sémantique".

    Cette histoire de champ sémantique et/ou lexical autour d'un mot est une réalité, mais déjà l'emploi d' outils de linguistique statistique favorise l'émergence des résultats entourés de termes connexes, sans qu'il soit nécessaire de comprendre de quoi ça parle.

    Et dernière chose : le signifié c'est le concept, et le signifiant ce qui véhicule le concept (le mot, le son)

  8. Il vaut mieux abandonner le terme Google Dance, car cela désignait un comportement de Google totalement abandonné aujourd'hui.

    Il vaut mieux parler de mises à jour, car l'index n'est plus mis à jour en même temps que la (les ?) base(s) qui contien(nen)t les infos sur le PR, les backlinks et le nombre de pages de la commande site:

    Bref, les backlinks sont mis à jour lors... de la mise à jour des backlinks, qui intervient de loin en loin, bien moins souvent que les mises à jour de l'index.

  9. t'en connaîtrais pas des payant par hasard

    Oui, d'ailleurs je viens de passer à Open Adstream (24/7 Realmedia). Il y'a aussi SmartAdserver (développé par l'équipe d'Aufeminin.com), Dart de Doubleclick, Ion de Bluestreak, Helios de Adtech.

    Il faut des volumes importants de pubs et un gros CA pour justifier de passer à ces solutions payantes, car le ticket d'entrée est lourd. Mais j'arrivais à bientôt 50 millions de PAP par mois, avec de plus en plus de rich media, et phpadsnew commencait à trouver ses limites.

    La bonne nouvelle pour les utilisateurs de phpadsnew, c'est que cela tient donc jusqu'à 50 millions de PAP par mois sans problème (et peut être au dela).

  10. Compte tenu de la combinaison des règles d'affichage que phpadsnew doit gérer, ce comportement est souvent inévitable.

    En effet, le gestionnaire de bannières ne choisit pas la bannière à afficher en fonction des bannières affichées avant. Il la choisit en fonction de critères calculés à chaque appel du gestionnaire de bannières.

    Ces critères pouvant être :

    - les poids respectifs des bannières et des campagnes

    - les limitations fixées à l'affichage des bannières

    - les objectifs d'affichage

    Déjà, si trois bannières ont la même priorité d'affichage, la séquence 111222333 à la même probabilité d'affichage que 123123123.

    Si d'autres règles doivent être prises en compte, comme les règles de priorité, le comportement que tu observes devient encore plus fréquent (car le cumul des règles de priorité fait apparaître à chaque fois la bannière 1 si elle est en déficit d'affichage, puis la 2 quand l'objectif de la 1 repasse dans les rails etc...

    En fait, phpadsnew pèche un peu par rapport à des gestionnaires "pro" sur le plan de la gestion des règles d'affichage, qui ne sont pas assez sophistiquées, mais il ne s'en sort pas trop mal.

  11. Il y'a eu une mise à jour sensible le 17/18 avec des changements dans les classements.

    Là, c'est plutôt un changement visible dans les résultats donnés par la commande site: sur certains datacenters.

    De là à parler de pages indexées en plus ou en moins... J'ai comme un doute. Je n'ai pas encore fait le tour de la question, mais pour l'instant, cela ressemble plus à un gonflement du "supplemental index" au détriment de l'index à jour, et d'un comportement pour le moins curieux de la commande site.

    Mais je ne constate pas de grands changements dans les SERPs depuis la semaine dernière.

  12. D'abord un rappel : il n'y a pas de pénalité pour duplicate content. C'est juste que Google utilise un "clustering" pour éviter de présenter plus d'une page de chaque site dans les premiers résultats, et que quand les pages dépassent un certain niveau de similarité, même avec des noms de domaine différents, il en choisit une sur les deux (en principe la plus importante).

    Ce mécanisme a pour objectif d'améliorer les pages de résultats des moteurs pour les internautes, et non de pénaliser qui que ce soit.

    Les critères pour décider de la similarité entre deux pages sont loin d'être aussi simples qu'on le dit souvent. J'ai souvent lu ici et là que le système de Yahoo était plus efficace que celui de Google. Celui de Yahoo! semble s'appuyer sur une simple mesure de similarité, celui de Google semble se baser sur la similarité plus d'autres critères. Ce qui explique pourquoi on peut prédire le comportement du filtre de Yahoo, mais qu'on est parfois surpris par le comportement de celui de Google.

    Il semble que si une page relativement similaire reçoive des liens à fort PR, elle est susceptible d'apparaître dans les résultats, mais si elle les perd, elle disparaîtra. Notons que le filtre de Google semble dépendre aussi de la requête, ce qui veut dire que la "note" de la page en tant que réponse à la requête a son importance.

    Pour répondre à ta deuxième question : la réponse est oui, hélas ! Si ce filtre de Google est souvent perçu comme une "pénalité", c'est qu'on ne maîtrise pas forcément quelle version de la page apparait, et celle qui disparait.

  13. Les critères sur lesquels Google se base pour déterminer les pages à crawler ou non sont multiples, et cela rend l'analyse complexe. Pour simplifier, il faut que Google sache que la page existe, il faut qu'il puisse la crawler (il est important donc de faciliter le travail des robots en éliminant toute source de blocage), et enfin, il faut que Google juge important d'avoir une version récente de cette page dans son index.

    J'insiste là dessus : les critères pris en compte sont à la fois des critères sur l'importance de la page dans l'absolu, mais aussi des critères qui donnent des indices sur l'importance d'avoir une version à jour de la page, comme la fréquence de mise à jour de la page.

    Par ailleurs, je n'ai jamais pris google en défaut d'indiquer, dans la commande site, un nombre de pages crawlées supérieur au nombre de pages réellement crawlables. Par contre Google peut avoir crawlé différentes versions de la même page (attention aux pages dynamiques avec des variables dans l'URL), peut avoir crawlé des pages spéciales pour les robots (cloaking, répréhensible ou non), et on a parfois des surprises avec le deuxième index de google (qui s'ajoute parfois au premier).

    Donc dans ton exemple, vérifie s'il n'existe pas d'autres versions possible de ces 70 pages.

  14. Le problème n'est pas dans l'utilisation de <div>. Tu peux en utiliser autant que tu veux cela ne te pénalisera pas.

    Le problème, c'est le code javascript ou les propriétés css que tu peux être amené à utiliser pour rendre visible ta <div>, ou changer le z-index etc...

    En effet, certains "trucs" utilisés pour créer un système de navigation (un menu déroulant) par exemple, ressemblent de manière frappante à des méthodes de cloaking...

    Matt Cutts avait notamment "lâché" qu'il ne fallait pas utiliser l'attribut display:none. (ce que j'ai pourtant fait il y'a deux mois en connaissance de cause sur un gros site sans pénalité particulière depuis).

    Mais globalement, nous sommes un peu dans le noir. On sait que le dernier bot de Google comprend une bonne partie du code javascript, et suit les css, et que la nouvelle méthode de crawl de Google facilite l'utilisation des méthodes de détection de cloaking. Mais on sait tellement peu de choses sur ce qui est jugé répréhensible ou non, sur ce qui est détecté ou non, qu'il est à mon avis impossible de donner des règles de conduites sur la programmation des div.

    Le mieux est d'expérimenter, de respecter des règles de bon sens en créant le code pour les internautes et pas pour les moteurs.

  15. Tout ceci est fort intéressant.

    Je signale quand même au passage que si tout ce que dit Matt Cutts est une source d'informations très utiles pour le référenceur, c'est aussi une source "intéressée".

    Donc, s'il est sans doute de bon aloi de suivre ses conseils, il ne faut pas tout prendre comme des paroles d'évangile. Dans la plupart des cas, il n'explique pas s'il vaut mieux faire les choses comme il le dit, parce que l'"algorithme" l'impose, ou simplement, parce que cela arrange Google que les webmasters suivent ces consignes. Notamment parce que l'algo gère mal ces problèmes...

    Donc, si on apprend deux ou trois choses intéressantes sur l'algorithme, il y'a aussi des conclusions qu'il serait dangereux de tirer de ces propos.

  16. le page rank ne sert plus à rien, çà a changé chez google

    Parenthèse :

    Bon, je vais encore une fois rappeler deux trois trucs, histoire d'éviter la propagation de fausses nouvelles...

    Le pagerank n'a pas changé (en tout cas pas de manière fondamentale), c'est le regard porté sur le pagerank qui a changé.

    Le pagerank sert toujours à quelque chose, mais comme beaucoup lui attachaient dans le passé plus d'importance qu'il n'en avait, certains comprennent avec recul que la proximité avec la requête a plus d'importance. Mais cela a toujours été le cas.

    Je ferme la parenthèse

  17. Quelqu'un peut-il me dire si phpAdsNew peut être utilisé comme une régie publicitaire totalement indépendante et commerciale ? C'est-à-dire sans être obligatoirement lié à un seul site pour l'affichage des pub, mais en utilisant un réseau de sites éditeurs (moyennant rétribution de ces derniers).

    Oui, parfaitement.

    Par contre, la facturation doit-être gérée en parallèle, ce n'est pas prévu dans le système.

  18. A utiliser définitivement non.

    A installer : non plus.

    Mais il vaut mieux savoir utiliser un client ftp, avec les subtilités qui vont avec (comme les problèmes de droits et de chmod) et ne pas être totalement ignare en php, car on peut se retrouver bloqué rapidement par le moindre problème lors d'une mise à jour par exemple...

    Donc c'est juste que je conseille Typepad à des gens qui ne veulent pas du tout mettre les mains dans le cambouis, ou allergiques à l'informatique...

    Avec Dotclear, faut au moins soulever le capot de temps en temps pour la vidange des 15000 et régler les culbuteurs ;)

    Mais qu'on me comprenne bien, Dotclear c'est simple à installer, paramétrer, administrer, mettre à jour. Le niveau requis pour s'en sortir est... très bas.

  19. Non pour la question 1.

    Nous parlons d'optimisation du code par rapport aux moteurs de recherche : placer les termes dans les bonnes balises, bien doser les termes dans le contenu texte, faire attention aux anchor texts etc... etc...

    Le fait d'avoir un code valide W3C est un plus, plus pour les internautes que pour les moteurs.

    Et non pour la question 2.

    Le fait d'avoir des adsenses n'améliore pas le positionnement. Il facilite (à la marge) le crawl.

  20. vBulletin est du même niveau qu' IPB.

    Le choix entre les deux est une question de priorités : 90% des fonctionnalités se retrouvent dans les deux (surtout depuis la 2.1 d'Invision), les différences résident dans la partie admin (réputée plus claire dans vBulletin) et dans la manière de gérer les templates.

    Une bonne alternative à phpbb est simplemachine... C'est mieux écrit, facile à personnaliser, moins attaqué par les hackers etc... Et plus accessible au béotien que les poids lourds ipb et vbulletin qui ont une courbe d'apprentissage plus lente.

    http://www.simplemachines.org/

  21. Quelques indications et précisions sur Lifetype (plog) et ses performances.

    D'abord ses développeurs ont pris conscience de la lourdeur du code et de son manque de performances, et préparent donc une refonte sérieuse du code pour la version 1.1

    Entendons nous bien : le nombre de blogs en soi n'est pas un problème. La taille de la base est limitée par l'espace disque, et le nombre de blogs aussi...

    Par contre il ne faut pas oublier qu'en offrant un service de blogs multiblogs, vous devenez hébergeur en mutualisé. Ce qui signifie que vous allez rencontrer des problèmes bien connus des hébergeurs mutualisés, notamment le fait que 95% des ressources vont être absorbées par 5% des blogs, qui auront un réel trafic !

    Si vous avez sur votre site des blogs qui cartonnent au niveau audience, dans ce cas la puissance du serveur et l'optimisation du code deviennent critiques...

    Par contre, si vous avez 10000 blogs avec un trafic symbolique, vous pouvez vous contenter de configurations plus modestes. Dans ce cas, Lifetype tient la route sans problème (sauf au niveau administration et modération des blogs, car il n'est pas fait pour autant de blogs en multiblogs).

    Nota Bene : pour la Dotclear 2.0, il me semble que la feuille de route n'est plus respectée, cela devient un peu l'Arlésienne...

  22. Autre contrainte : les annonceurs (les clients)...

    Ils aiment bien dire : je veux être là, et si l'espace pub bouge dynamiquement, cela provoque des réactions parfois amusantes...

    Cela oblige à "caler" les maquettes de page et donc à travailler en pixels.

    En dehors de cela, je trouve que l'on peut réaliser des maquettes en pourcentage qui restent esthétiques sur une grande plage de résolutions et de taille de fenêtres... C'est juste parfois un peu long à faire, et cela demande aussi de changer de méthodes de conception (on s'éloigne franchement de la PAO)

×
×
  • Créer...