Aller au contenu

En finir avec les pages redirections trompeuse


Sujets conseillés

J'étais pourtant sûr d'avoir développé cette solution ; tu dois avoir raison j'ai dû rêver.

<{POST_SNAPBACK}>

Je ne dis pas que tu n'as pas développé ton outil bien sûr, je dis juste que google s'était déjà doté de moyens de détecter les redirections java script:

If you're seeing a directory from your site go away, the only new factor I'd check for is doorway pages with javascript redirects. google has been getting better at detecting that lately. We're catching spam on freehosts better/faster, but if you're on the blackhat end of the spectrum, you've probably already noticed that.
http://www.webmasterworld.com/forum30/31072-7-30.htm

Je suis d'accord avec toi sur le fait que le ménage qu'a fait google est encore très partiel, mais on ne peut pas en même temps se plaindre que leurs résultats sont spamés, et critiquer quand ils font un pas pour les améliorer.

Bien sûr tout ceci n'enlève rien à la qualité de ton travail :)

Lien vers le commentaire
Partager sur d’autres sites

  • Réponses 79
  • Créé
  • Dernière réponse

Contributeurs actifs dans ce sujet

Contributeurs actifs dans ce sujet

c'est vrai que ce serait vraiment bien de disposer d'un tel outil ...

mais le problème avec ce type d'outil, ce n'est souvent pas de détecter la fraude mais d'éviter les effets collatéraux (sinon cela ferait bien longtemps que les astuces bidon, genre div cachés et compagnie auraient déjà disparus) ...

je ne pense pas que le vrai problème pour les moteurs soit de détecter les fraudes, mais déviter de "condamner" un site innocent ... ce qui est quand même la moindre des choses ... :whistling:

Lien vers le commentaire
Partager sur d’autres sites

OK mea culpa mes excuses à tous.

J'ai tellement l'habitude de réactions négatives devant l'innovation que j'ai un peu (:wacko:) tendance à surréagir.

Je me réjouis que mes sur-réactions aient conduit à un échange nourri qui, de plus, m'a permis de découvrir des formes de cloaking que, et je n'étais probablement pas le seul dans ce cas, j'ignorais jusqu'alors.

NB :

- Non je ne dis pas que je vais les employer

- AMHA Le politiquement et webiquement correct est parfois (souvent) stérile

J'en profite pour saluer le haute qualité de ce forum que je fréquente depuis peu mais toujours avec grand intérêt.

Merci de m'y accueillir avec mon fichu caractère.

Modifié par AbaqueInside
Lien vers le commentaire
Partager sur d’autres sites

mais le problème avec ce type d'outil, ce n'est souvent pas de détecter la fraude mais d'éviter les effets collatéraux (sinon cela ferait bien longtemps que les astuces bidon, genre div cachés et compagnie auraient déjà disparus) ...

Franchement, quand on sait un peu programmer, détecter les textes cachés dans une page HTML est relativement facile, je dirais même très facile.

Je me demande comment Google et autres peuvent encore buter là dessus.

Détecter les redirections JS est un peu plus tordu car on peut utiliser une cascade de fonctions et d'instructions.

Par exemple

(je vais essayer d'écrire simple pour que ceux qui connaissent mal JS et DOM puissent comprendre ; que les puristes veuillent bien me pardonner les fautes de syntaxe éventuelles, je m'en excuse par avance, non pas sur la tête ça fait mal :whistling: )

morceau1 = "window.";

morceau2 = "location";

morceau3 = "=";

morceau4 = "maPageCible.htm";

commande = morceau1 + morceau2 + morceau3 + morceau4;

eval(commande); // exécute la commande fabriquée ci-dessus

On peut broder à l'infini sur le même thème ...

je ne pense pas que le vrai problème pour les moteurs soit de détecter les fraudes, mais déviter de "condamner" un site innocent ... ce qui est quand même la moindre des choses ...

C'est bien pour cela qu'à notre avis il doit voir les seules pages présentées à l'internaute, telle que les verra l'internaute.

Modifié par AbaqueInside
Lien vers le commentaire
Partager sur d’autres sites

the only new factor I'd check for is doorway pages with javascript redirects. google has been getting better at detecting that lately. We're catching spam on freehosts better/faster, but if you're on the blackhat end of the spectrum, you've probably already noticed that.

AMHA, si je peux me permettre, les précautions oratoires indiquent clairement qu'ils ne savent pas faire de manière fiable.

Lien vers le commentaire
Partager sur d’autres sites

Bon une petite dernière, désolé d'insister.

En effet, notre solution ne peut rien contre le cloaking sur IP / User Agent

En fait si, notre outil pourrait aussi servir contre cette forme de cloaking :

Comme pour Lance Armstrong récemment, faire un contrôle anti-dopage a posteriori

(j'aime bien l'expression contrôle anti-dopage lue récemment dans ces colonnes) :

Sur un échantillon de mots clé,

On prend les 10 pages les mieux placées

On vérifie si ce sont des pages satellites

(on peut envoyer un USER AGENT anonyme et changer d'IP à chaque vague de contrôle)

Lien vers le commentaire
Partager sur d’autres sites

Franchement, quand on sait un peu programmer, détecter les textes cachés dans une page HTML est relativement facile, je dirais même très facile.

Je me demande comment Google et autres peuvent encore buter là dessus.

<{POST_SNAPBACK}>

parce qu'à mon avis le problème n'est pas technique ... détecter des textes "cachés" et des redirections (même tordues) n'est pas pas un problème ... le vrai problème est plutôt de savoir discriminer (avec un taux d'erreur acceptable) si c'est une technique utilisée à des fin de spam ou non ... ;)

par exemple : la plupart des forum font du cloaking sur les moteurs, faut il pour autant virer tous ces forum de l'index de Google ? beaucoup de sites utilisent des calques cachés pour leurs menus, faut il tous les virer de l'index ? :fou:

Modifié par cendrillon
Lien vers le commentaire
Partager sur d’autres sites

Franchement, quand on sait un peu programmer, détecter les textes cachés dans une page HTML est relativement facile, je dirais même très facile.

Je me demande comment Google et autres peuvent encore buter là dessus.

Détecter sur une page c'est une chose, détecter sur 10 milliards de pages ça en est une autre. C'est là le problème des moteurs de recherche à mon avis, avoir un algo performant en terme de résultat mais également en terme de vitesse d'exécution. C'est pourquoi à mon avis, un truc qui parrait simple à faire n'est pas fait par Google ou autre, et je ne pense pas que le problème vienne des compétences des ingénieurs de chez Google... @+

Lien vers le commentaire
Partager sur d’autres sites

le vrai problème est plutôt de savoir discriminer (avec un taux d'erreur acceptable) si c'est une technique utilisée à des fin de spam ou non

Franchement je ne te comprends pas.

Si j'étais un moteur de recherche, devant une page, je me demanderais

'Quel texte voit vraiment l'internaute moyen ?'

- style="visibility:hidden;" : je zappe

- <noscript> : je pondère par le nombre d'internautes qui n'utilisent pas les scripts

- <img alt="toto" : si je peux trouver l'image je zappe

- <noframe> : je zappe parce que 99,999% des navigateurs courants acceptent les frames

- etc.

Je me foutrais pas mal des intentions de l'auteur du site, je me contenterais d'apprécier ce que l'internaute voit effectivement.

C'est d'ailleurs ce que font les araignées en donnant plus de poids au texte situé en tête de page par qu'à celui situé en bas de page (avec les limites inhérentes à CSS2 with positionning).

Lien vers le commentaire
Partager sur d’autres sites

avoir un algo performant en terme de résultat mais également en terme de vitesse d'exécution

Désolé de te contredire mais tabuler les balises d'une page même lourde et analyser leur contenu se chiffre en millisecondes.

Avec plus de 80.000 machines tournant 24 heures sur 24, Google a encore de la marge.

Lien vers le commentaire
Partager sur d’autres sites

style="visibility:hidden;" : je zappe

Tu zappe alors nombre de sites clean qui utilisent juste des menus ou elements dynamiques utilisant javascript et css

<noscript>

Si la balise est souvent utilisée pour le référencement, son usage premier est de fournir un contenu alternatif au script. Elle sert donc l'accessibilité des sites.

<img alt="toto" : si je peux trouver l'image je zappe

Je ne vois pas en quoi la presence ou non de l'image est pertinente quand au spam

<noframe> : je zappe parce que 99,999% des navigateurs courants acceptent les frames

idem que pour noscript.

Tu vois c'est pas si simple :)

Lien vers le commentaire
Partager sur d’autres sites

Tu vois c'est pas si simple

Ben si ou alors je dois prendre un aspegic au plus vite :blink:

Pourquoi indexer des textes que ne verra pas l'internaute ?

Bon d'accord pour le "alt" car il décrit le contenu d'une information graphique inaccessible à l'araignée (bien qu'il existe, paraît-il des logiciels capables de reconnaître des formes d' image, par exemple certaines parties du corps humain :wub: )

Mais pour le reste ?

90 % des internautes acceptant les Scripts, seuls 10 % d'entre eux verront le texte dans <noscript>.

Sachant que lorsqu'il reçoit une demande de recherche, Google ou autre ne sait pas si l'émetteur accepte les scripts ou non, le texte <noscript> devrait, AMHA, être pondéré pour tenir compte de la moindre audience.

etc.

Bon, c'est peut-être une controverse philosophico-sémantique et là je dois avouer que, en tant que technicien de base, je ne tiens pas la route.

Lien vers le commentaire
Partager sur d’autres sites

On vérifie si ce sont des pages satellites

(on peut envoyer un USER AGENT anonyme et changer d'IP à chaque vague de contrôle)

C'est bien là le problème ! Tu ne peux pas faire d'IP spoofing donc tu ne pourras pas prendre une des IP de Google. Donc tu ne verras que les pages prévues pour le public, pas celles prévues pour les moteurs.

Et quand bien même tu arriverais à émettre un paquet avec une de ces IPs, la réponse du serveur serait envoyée à Google, pas à toi.

Donc si les pages sont prévues pour s'afficher juste pour ces IPs tu ne pourras pas les voir.

Et je pense qu'avec les interlocuteurs que tu trouveras sur le Hub, tu auras nombre de participants aux concours de positionnement, qui savent pratiquement tous faire du cloaking sur IP ... Et là ton outil ne pourra rien détecter. ;)

Lien vers le commentaire
Partager sur d’autres sites

Mon cher Dan,

Tout d'abord je te renouvelle perso. mes félicitations pour le Hub dont, je crois, tu es l'auteur.

Tu ne peux pas faire d'IP spoofing

Ma dernière proposition n'allais pas dans ce sens où j'ai bien compris que ne peux rien faire.

Je ne suis plus dans l'optique "Araignée" mais plutôt "Client Mystère"

Je vais tâcher d'être clair :P

J'ai un serveur indépendant de Google et consorts

Je dresse une liste de mot(s) clé(s) à surveiller

Pour chaque mot(s) clé(s) surveillé(s) :

- Je requête à Google sur ces mots clés

- Je vérifie en douce les 10 premières adresses de page.

Pour cela j'envoie des requêtes à partir de mon serveur, avec un USER AGENT et une IP complètement indépendante de Google et consorts, a priori indétectable sauf Gross Sapotache oder Espionnache :D .

Je remonte les pages satellites à qui de droit.

Lien vers le commentaire
Partager sur d’autres sites

Je remonte les pages satellites à qui de droit.

Cela suppose que tu aies un contact privilégié avec "qui de droit".

Mais là encore, si les pages ne sont pas en cache moteur, tu ne pourras pas détecter le cloaking s'il est bien fait, vu que tu n'auras pas la possibilité de comparer ces pages vues avec une IP de Google par rapport à ces pages vues avec une IP différente (ou avec 10 000 IPs différentes, ça ne change rien).

Si je fais une page "juste pour GoogleBot" en me basant sur son IP ... comment arriveras-tu à la voir ?

Je veux bien prendre le pari avec toi, quel que soit l'enjeu ...

Je te suggère de faire le test que Jan avait publié sur son site concernant le cloaking, tu réaliseras que ce n'est pas trivial du tout.

Il te donnera très certainement l'URL du test. :)

Dan

PS: merci pour tes félicitations, elles reviennent à l'ensemble de la communauté.

Lien vers le commentaire
Partager sur d’autres sites

Je veux bien prendre le pari avec toi, quel que soit l'enjeu ...

Enfin ça devient sportif et fair play, j'aime ça ...

Disons une bouteille de champagne ça va ? :fete:

Si je fais une page "juste pour GoogleBot" en me basant sur son IP ... comment arriveras-tu à la voir ?

Justement je ne la verrai surtout pas, je verrai la page comme l'internaute.

Par exemple

J'interroge Google sur 'webmaster'

Il me retourne une page avec des hyperliens, où le Hub en bonne place :D

Je vérifie chaque adresse comme si je l'avais copié - collé dans ma page de test, comme n'importe quel internaute standard.

J'ignore ce que Google a en cache ou autre, je regarde la page comme un internaute.

Est-ce plus clair ? (cross finger)

Lien vers le commentaire
Partager sur d’autres sites

style="visibility:hidden;" : je zappe

Le problème c'est le statut peut changer pour le cas de menus déroulant (comme l'a évoqué Sébastien) par exemple, ou de textes affichés au survol d'un élément. L'internaute sur une action précise va bien voir ces éléments affichés à l'écran.

C'est donc plus difficile de faire la part des choses à mon sens.

Lien vers le commentaire
Partager sur d’autres sites

J'ignore ce que Google a en cache ou autre, je regarde la page comme un internaute.

C'est justement là que le bât blesse, car si la page est cloakée pour les robots ce n'est pas celle là que tu verras, mais celle à l'usage de l'internaute. DOnc rien ne te permettra de détecter le cloaking.

C'est ce que j'essaie de te faire comprendre: tu ne pourras jamais voir les pages faites à l'usage de Googlebot si elles ne sont pas dans le cache Google et que ce cloaking est fait sur base de l'IP. Ce sont celles-là qui représentent le danger, pas celles destinées aux utilisateurs lambda.

Lien vers le commentaire
Partager sur d’autres sites

L'internaute sur une action précise va bien voir ces éléments affichés à l'écran

Parfaitement d'accord avec cet exemple.

Le Web dynamique complique l'analyse.

Néanmoins je reste convaincu de la validité du principe : analyser la page telle l'internaute la verra.

Les textes apparaissant de ci de là devraient avoir moins de poids que ce qui est directement visible.

Sinon, j'aurais peut-être une solution ... mais pas sous le coude là tout de suite.

Lien vers le commentaire
Partager sur d’autres sites

Néanmoins je reste convaincu de la validité du principe : analyser la page telle l'internaute la verra.

C'est ce que n'importe quel moteur de recherche digne de ce nom cherche à faire.

Le problème, c'est qu'aucune entreprise au monde ne peux se permettre de changer d'adresse IP chaque fois qu'elle indexe une page... Elle peut le faire ponctuellement (rien ne dit d'ailleur que Google ne le fait pas de temps en temps) mais pas tout le temps.

Tizel

Lien vers le commentaire
Partager sur d’autres sites

J'ai déjà eu l'occasion de voir sur le Hub un visiteur en provenance d'un FAI standard américain, avec comme référant une page de Google.com dont l'accès est protégé par autentification http.

C'est donc bien quelqu'un qui a suivi un lien au départ d'un site privé à Google, avec une IP "standard".

Le post qu'ils étaient venus voir traitait d'une suppression de compte Adsense. :)

Lien vers le commentaire
Partager sur d’autres sites

DOnc rien ne te permettra de détecter le cloaking

En effet, et je ne vois pas l'intérêt de le détecter, seul le résultat compte, non ?

Voyons les choses autrement.

Le cloaking sur IP/USER AGENT consiste pour le serveur à envoyer, pour une même adresse de page, un contenu différent à l'araignée du moteur de recherche et à l'internaute.

Si cette différence de contenu est une redirection masquée au MR, mon outil la voit (normalement), c'est d'ailleurs son seul but.

Si c'est tout le contenu de la page qui est trafiqué, c'est un autre problème que mon outil n'a nullement l'ambition d'adresser.

La seule solution envisageable serait de passer après le robot comme internaute lambda, lire la page et l'envoyer au MR pour comparaison avec le cache.

Et c'est une toute autre histoire...

A nouveau, je pense que ce genre d'approche "internaute mystère" serait très intéressante.

Il ne s'agit pas de vérifier toutes les pages mais, disons, les dix premières sur les 20 % de mots clés représentant 80 % des recherches, et ce de façon aléatoire.

Contrôle anti-dopage est probablement la meilleure analogie.

Et je verrais très bien une communauté comme le Hub jouer les contrôleurs.

Modifié par AbaqueInside
Lien vers le commentaire
Partager sur d’autres sites

Et bien il me dit que je n'ai pas de page sat' FORMIDABLE

Ahum, tu n'as peut-être pas bien compris. :blink:

Notre outil de détecte pas

les pages référençant des pages satellites

mais

les pages satellites elle-mêmes, qui redirigent vers une autre

Lien vers le commentaire
Partager sur d’autres sites

les pages référençant des pages satellites

Qui référence quoi ?

Je veux vous aider à debugguer votre outil en vous montrant un dossier qui va pas tarder à être GoogleSpamAlerter :boude:

Et vous me parler de référencement de page sat', je suis un peu perdu .... :whistling:

Vous dites detecteur de page sat, j'en montre 15.000 à l'outil et il voit rien ;)

Heureusement Google n'est pas aussi naïf ^_^

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant

×
×
  • Créer...