Aller au contenu

En finir avec les pages redirections trompeuse


Sujets conseillés

Bonjour,

Nous avons le plaisir de vous annoncer que nous mis au point une technologie détectant les pages satellites.

Vous pouvez la tester ici

Ceci est un exemple, vous pouvez tester sur d'autres pages de votre choix

Je compte sur votre indulgence, c'est encore frais ...

Les temps de réponse sont un peu long car nous envoyons les pages (souvent lourdes) encodées avec une liaison 512 kb/s montant.

Les moteurs de recherche qui voudront adopter cette technologie donneront des résultats plus fiables et pourront libérer leurs ingénieurs planchant sur un algorithme de détection.

A bon entendeur salut !

Modifié par AbaqueInside
Lien vers le commentaire
Partager sur d’autres sites

  • Réponses 79
  • Créé
  • Dernière réponse

Contributeurs actifs dans ce sujet

Contributeurs actifs dans ce sujet

Désolé mais ca ne marche pas, par exemple une simple redirection 302 est interpretée comme une page sat. Par contre une page contenant de sliens vers des pages sat passe le test sans être detectée...

Lien vers le commentaire
Partager sur d’autres sites

Tu es sûr de ton outil ? :wacko: J'ai testé avec l'url de mon site, et il me répond que j'ai une page satellite. :lol:

Ou ton outil n'est pas fiable, ou je dois virer le webmaster qui a fait mon site... mdr...

Lien vers le commentaire
Partager sur d’autres sites

ben moi idem, je me suis dit, tiens super je vais tester mes concurrents :P et voila que l'outil me donne un résultat positif pour... mes sites ! Pourtant nada, pas de page sat !

mais je viens juste de constater une différence quand l'on tape www.site.com et www.site.com/index.html. Pas de page sat si indication de "index.html".

Lien vers le commentaire
Partager sur d’autres sites

Désolé mais quand on annonce

Les moteurs de recherche qui voudront adopter cette technologie donneront des résultats plus fiables
il faut être d'avantage sûr de ce qu'on avance. En l'état, l'outil donne des faux positifs, ce qui est pire que de laisser passer du spam.

Et je suis pas sûr que tu saisisses entièrement ce que sont les systemes de pages sat. Les pages d'accueil contiennent fréquemment des liens cachés vers celles-ci. Si ton systeme se borne à constater que ce qu'il a dans un navigateur est différent de de qu'il y a dans l'url testée, c'est soit de la detection de cloaking (si l'url ne change pas), soit de la detection de redirection (si l'url change).

Lien vers le commentaire
Partager sur d’autres sites

Vos tests ne sont pas pertinents les gars :

Il ne peut pas y avoir de page satellite à la racine du site !

Il faut donner l'adresse complète d'une page comme dans un résultat google.

Oui ok, maintenant je comprend mieux. Et dire que j'ai failli virer mon webmaster :fou:

Mais enfin pour la newbie que je suis, comment soupçonner qu'une page est satellite ? Je pensais que ton outil allait analyser le site et dire "Attention pages satellites" . Parce que je me vois pas allez tester toutes les pages de mon site (j'ai pas de concurrent :whistling: ), pour savoir si le travail a été bien fait :hypocrite: Rassures-toi, j'ai pas de doute sur la qualité de mon site c'est juste pour l'expérience :P

Lien vers le commentaire
Partager sur d’autres sites

Et je suis pas sûr que tu saisisses entièrement ce que sont les systemes de pages sat. Les pages d'accueil contiennent fréquemment des liens cachés vers celles-ci. Si ton systeme se borne à constater que ce qu'il a dans un navigateur est différent de de qu'il y a dans l'url testée, c'est soit de la detection de cloaking (si l'url ne change pas), soit de la detection de redirection (si l'url change).

Tu as tout à fait raison et nous comprenons bien la même chose.

La seule façon de faire référencer une page satellite est d'ajouter un lien (en général caché dans des <noscript> ou des <noframe>) vers cette page depuis la page d'accueil.

Ainsi le Moteur de Recherche va lire la page satellite et la référencer comme une vraie et bonne page.

En fait la page satellite contient du texte bidon qui leurre le moteur de recherche, lui aussi caché, et, en fin, redirige vers la page d'accueil.

Quand l'internaute fait une recherche sur un des mots clés leurre, le MR lui donne le lien vers la page satellite. Quand il clique dessus, l'internaute tombe sur la page d'accueil. CQFD.

Le problème est que le MR ne sait pas détecter, dans la page satellite, la redirection vers la page d'accueil qui est masquée dans un script assez tordu avec des appels de fonctions javaScript en cascade.

C'est précisément ce que nous savons détecter.

L'idée serait d'implémenter cette techno, après perfectionnements, dans l'araignée de recherche (par ex. GoogleBot).

Quand celle-ci va voir la page satellite, elle va lire non pas son contenu, mais celui de la page "cible", à savoir la page d'accueil dans notre exemple.

Ainsi l'araignée ignorera purement et simplement le texte bidon de la page satellite pour lire celui de la page d'accueil.

Mieux, comme il saura que l'URL est celui de la page d'accueil, il l'ignorera puisque déjà référencée.

A nouveau c'est balbutiant et vos réactions sont précieuses.

Mais je persiste à croire en l'intérêt de notre solution.

Modifié par AbaqueInside
Lien vers le commentaire
Partager sur d’autres sites

Rassure toi je ne mets pas en cause l'interet de la solution, juste l'effet d'annonce ;) C'est comme si je disais "hé les gars j'ai creé le nouveau google, bon faut que vos recherche soient pertinentes aussi".

Lien vers le commentaire
Partager sur d’autres sites

Si j'ai bien compris ton outil détecte les redirections en javascript, qui font que les moteurs indexent les pages, mais que les visiteurs qui n'ont pas désactivé JS sont redirigés vers la page d'accueil.

C'est une chose, mais c'est loin d'être suffisant pour identifier les pages satellites. Les redirections JS constituent "le cloaking du pauvre" :lol: . Si les moteurs de recherches décidaient d'utiliser cette méthode, ils resteraient quand même très facilement "abusables" par les techniques beaucoup plus "fiables" de redirection par cloaking sur IP (ou même sur user agent).

D'ailleurs Google a mis en place très récemment (update jagger) une détection partielle de redirection js, et les pénalités qui vont avec. Ils ont un peu fait le ménage dans leur index avec ça, mais c'est loin d'être suffisant.

Si les moteurs de recherche voulaient vraiment éliminer le cloaking, la seule solution serait d'envoyer des robots qu'on ne puisse pas identifier par leurs IPs. Ce n'est pas le cas aujourd'hui. Pourquoi? Peut-être est-ce trop lourd à mettre en oeuvre, je ne sais pas.

Pour ce qui est d'éliminer les pages satellites, j'ai plutôt l'impression que les moteurs ont choisi une autre voie, qui consiste à détecter de trop grandes similarités entre les pages. Les pages sat sont souvent en nombre sur les sites qui les utilisent et présentent souvent des structures très similaires (et différentes des structures des pages "normales" du site). Ce que je peux en voir est que ça a une certaine efficacité.

Revers de la médaille, il y a, notamment chez google, des effets de bord et des domages collatéraux. Sans doute dans le but de faire le ménage dans son index, google a réglé son filtre anti duplicate content sur la position "à fond". Du coup des pages tout à fait honnêtes se retrouvent éliminés. C'est le cas notamment dans beaucoup d'annuaires.

Lien vers le commentaire
Partager sur d’autres sites

Je viens de tester sur un concurrent qui se place devant moi sur plusieurs requêtes en utilisant une redirection javascript : réponse "page satelitte" OK pas de problème... :D

Mais j'ai testé sur l'index de mon site :

avec : h**p://w*w.blabla.com : problème => il m'indique "page satelitte" alors que ce n'est pas le cas.... :D

avec : h**p://w*w.blabla.com/ : pas de problème => il m'indique "pas de page satellite."....

Cela semble intéressant pour les redirections javascript.... mais pour d'autres techniques plus avancées ?

Modifié par gatcweb
Lien vers le commentaire
Partager sur d’autres sites

C'est une chose, mais c'est loin d'être suffisant pour identifier les pages satellites

Ta réponse est typiquement française et j'ai eu à peu près la même dans ces colonnes sur mon catalogue IntuiCat : ta solution n'est pas parfaite donc à jeter.

Il est vrai qu'en France on apprécie beaucoup plus les gens qui soulèvent des problèmes que ceux qui trouvent des solutions.

Bon sang, Paris ne s'est pas fait en un jour ! :hourra:

Notre modeste et humble solution adresse en effet le cloaking du pauvre et je le revendique (et plus comme je l'explique plus loin).

Il se trouve que mon site est distancé dans Google par une multitude de concurrents qui utilisent précisément cette technique du pauvre, ce malgré mes nombreux 'spam reports' à Google.

Je fondais quelques espoirs en le dernier Google Dance mais rien de nouveau à l'horizon.

Visiblement Google et les autres ne savent toujours pas gérer le problème.

Faute de détecter ces redirections, il se prennent la tête avec des algorithmes tels que ceux que tu évoques qui coûtent les yeux de la tête et pourront toujours être coutournés.

C'est pour cela que je me suis dit qu'on pouvait peut-être faire quelque chose ... modestement bien sûr.

Redirection par cloaking sur IP ou même sur user agent

Perdu ! notre solution marche aussi.

En effet :

Ce système consiste à envoyer à l'araignée une page différente de celle que verra l'internaute.

Cette page leurre contient des liens leurres non masqués vers les pages satellites qui se voient du coup référencées. L'internaute ne verra jamais ces liens sur la 'vraie' page.

Dès lors le système revient au "cloaking du pauvre".

La recherche retourne la page satellite qui renvoie à la page d'accueil.

Avec notre système, lorsque l'araignée accède à la page satellite, il lit la vraie page à la vraie URL et la redirection est contournée.

Modifié par AbaqueInside
Lien vers le commentaire
Partager sur d’autres sites

Mais j'ai testé sur l'index de mon site :

avec : h**p://w*w.blabla.com : problème => il m'indique "page satelitte" alors que ce n'est pas le cas.... :D

avec : h**p://w*w.blabla.com/ : pas de problème => il m'indique "pas de page satellite."....

Le problème vient du '/ 'en fin d'adresse.

Ce n'est rien à corriger.

STP lis attentivement la page de test : il faut indiquer l'adresse d'une page et non la racine du site

Lien vers le commentaire
Partager sur d’autres sites

J'ai envie de dire :

et alors ?

Il y a bien d'autres techniques pour "fausser" les résultats, on voit de plus en plus de sites avec du contenu visible, contenu sans aucun intérêt du point de vu de l'internaute et bien destiné au moteur, que ce soit en bas, sous forme de marquee à rallllonnngge, etc etc...

Si on lit, les guideslines, c'est OK.

Si on réfléchit... c'est pareil, voir moins propre que de la page sat' ou du cloak. :huh:

Moi tant que la requête est légitime par rapport à la demande... ^_^

Lien vers le commentaire
Partager sur d’autres sites

Loin de moi l'idée de mettre ta solution à la poubelle, mais il me semblait important (et constructif) d'en montrer les limites. Tu demandais des avis, je t'ai donné le mien, non?

D'ailleurs, je pense pense pas qu'on puisse parler de ta solution, puisque comme je le disais, google l'utilise depuis jagger.

Quand tu dis que ta solution permet d'identifier le cloaking sur IP je ne peux pas être d'accord. En IP cloaking appliqué aux pages satellites, la redirection n'est faite justement que si le visiteur n'est pas un robot. Donc, impossible pour un robot de la détecter. Ou alors comme je le disais, il faut que les robots ne soient pas identifiables par leurs IPs. Ce n'est pas le cas aujourd'hui.

Lien vers le commentaire
Partager sur d’autres sites

Bonjour à toutes et à tous,

Il y a bien d'autres techniques pour "fausser" les résultats, on voit de plus en plus de sites avec du contenu visible, contenu sans aucun intérêt du point de vu de l'internaute et bien destiné au moteur, que ce soit en bas, sous forme de marquee à rallllonnngge, etc etc...

Si on lit, les guideslines, c'est OK.

Je pense que le paragraphe du GuideLines Google ci-dessous prend en compte votre remarque.

Conseils concernant la qualité - Recommandations précises :

- Ne créez pas plusieurs pages, sous-domaines ou domaines présentant un contenu en grande partie identique.

Concernant l'outil présenté dans ce post, si il ne peut être aboutit pour l'instant, je trouve l'idée bonne.

Cordialement,

Lien vers le commentaire
Partager sur d’autres sites

Loin de moi l'idée de mettre ta solution à la poubelle, mais il me semblait important (et constructif) d'en montrer les limites. Tu demandais des avis, je t'ai donné le mien, non?

La cascade de sarcasme m'a peut-être fait réagir un peu vite ... :evil: Désolé.

Il a fallu attendre 20 messages pour lire un mot encourageant.

D'ailleurs, je pense pense pas qu'on puisse parler de ta solution, puisque comme je le disais, google l'utilise depuis jagger

J'étais pourtant sûr d'avoir développé cette solution ; tu dois avoir raison j'ai dû rêver.

Vu le nombre de nos concurrents mieux Googlés que nous grâce au bon vieux "cloaking du pauvre", je me permets de douter de l'efficacité de "Jagger".

Quand tu dis que ta solution permet d'identifier le cloaking sur IP je ne peux pas être d'accord. En IP cloaking appliqué aux pages satellites, la redirection n'est faite justement que si le visiteur n'est pas un robot. Donc, impossible pour un robot de la détecter. Ou alors comme je le disais, il faut que les robots ne soient pas identifiables par leurs IPs. Ce n'est pas le cas aujourd'hui.

En effet, notre solution ne peut rien contre cette forme de cloaking.

Cela dit, il y a encore fort à faire avec les pages satellites "classiques" qui nuisent aux site modestes.

AMHA le cloaking sur IP est réservé à de grosses boîtes qui peuvent payer des Webmestres à temps plein pour surveiller les IP et les USER AGENT des araignées.

Modifié par Arlette
Lien vers le commentaire
Partager sur d’autres sites

AMHA le cloaking sur IP est réservé à de grosses boîtes qui peuvent payer des Webmestres à temps plein pour surveiller les IP et les USER AGENT des araignées.

Ca, c'est absolument faux... Les adresses Ip des robots des moteurs de recherche sont bien connues et il est à la portée de tous de générer des pages spécialement pour GoogleBot, YahooSlurp et consoeur...

Le problème de ta solution, c'est qu'elle écarte aussi les sites - trés nombreux - qui font de la redirection sans forcément vouloir tricher. Et c'est là toute la difficutée : au dela de l'aspect technique, comment différencier une page satellite d'une page non satellite ? Pour moi, la réponse est loin d'être évidente et c'est sans doute pour cela qu'aucun moteur n'a réussit à apporter une réponse pleinement satisfaisante à ce type de cloacking.

Tizel

Lien vers le commentaire
Partager sur d’autres sites

Le problème de ta solution, c'est qu'elle écarte aussi les sites - trés nombreux - qui font de la redirection sans forcément vouloir tricher

Non, elle n'écarte rien du tout.

Elle se contente de lire la page que verra l'internaute en ignorant le page redirigée.

Cette page n'a pas de sens puisque l'internaute ne la verra jamais.

Lien vers le commentaire
Partager sur d’autres sites

La cascade de sarcasme m'a peut-être fait réagir un peu vite ... :evil: Désolé.

Il a fallu attendre 20 messages pour lire un mot encourageant.

Du calme STP...

Tu viens proposer un outil, du demande un avis, et au premier avis posté par Sébastien, qui n'est pas agressif du tout tu réponds déjà :

Je m'attendais un peu à me faire casser ...  :rolleyes:

J'ai beau relire l'intégralité du post je ne vois rien d'agressif. Seulement des personnes qui comme moi n'ont pas tout compris de suite, et t'ont demandé des précisions, ou des plus expertes comme Jan qui t'ont donné leur avis.

En plus dans presque tout les posts il y a des smileys de convivialité pour éviter justement que tu te sentes agressé.

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant

×
×
  • Créer...