Aller au contenu

Détecter facilement une page cloakée


Sujets conseillés

Salut,

Juste un petit commentaire par rapport à ceux qui cherchent le moyen de vérifier si une page Web est cloakée (trafiquée pour les moteurs de recherche)

La plupart du temps, vous allez bien sûr faire afficher la page en cache dans les résultats de Google.

Mais que faire si la page en question utilise la balise noarchive ?

D'ailleurs cela a servi de jeu sur Actulab: Le cloaking Cracking Challenge.

Prouver que cette page est cloakée:

http://www.actulab.com/cloaking-cracking-challenge.php

Une méthode très simple que vous connaissez peut être déjà consiste à faire de l'IP spoofing (usurpation d'IP) en utilisant l'IP de GoogleBot.

Pour se faire, utilisez votre compte Google Analytics puis sélectionnez la fonction Synthèse Donnée/Site (en ayant préalablement créer le profil url du site à examiner)

Voici ainsi comment afficher instantément la page cloakée du concours d'Actulab:

http://arnoweb.free.fr/concours_crack_cloaking.jpg

Intéressant pour coincer facilement les tricheurs sans pour autant avoir de compétences techniques...

Lien vers le commentaire
Partager sur d’autres sites

Un autre moyen qui ne nécessite pas une inscription à un quelconque service (mais moins fiable on va le voir) est d'installer l'addon "user agent switcher" de firefox.

Ajoutez le user agent de googlebot ( Googlebot/2.1 (+http://www.google.com/bot.html) par exemple ).

Il vous suffit alors sur la page en question de basculer entre votre user agent et celui de googlebot pour détecter le cloaking.

Jan étant un petit peu vicieux a fait du cloaking sur ip et nous délivre donc le message suivant :

Désolé! Vous n'avez pas cracké notre cloaking. La page que vous visualisez n'est qu'une version réservée à ceux qui, comme vous, tentent (grossièrement) de se faire passer pour GoogleBot. Ce n'est pas la page que nous présentons au VRAI GoogleBot. Eh oui, nous cloakons sur l'IP. Ceci dit vous êtes en bonne voie, essayez encore ;)

Avoir recours au cloaking n'est que la traduction d'un site non pertinent, sans contenu enrichi, sans maillage qualifié. Si c'est le cas de votre concurrent, frottez vous les mains, vous lui passerez devant... :whistling:

Merci Arno pour la ressource...

Lien vers le commentaire
Partager sur d’autres sites

Bravo arnoweb2! Il va falloir améliorer les scripts de cloaking pour corriger cette faille via analytic ;)

rico, il y a au moins une autre bonne raison d'utiliser le cloaking: éviter de se faire voler son contenu. Le "duplicate content" peut faire des ravages sur le référencement d'un site. Et les "scrappers" sont légion ces temps-ci

Lien vers le commentaire
Partager sur d’autres sites

Bravo arnoweb2! Il va falloir améliorer les scripts de cloaking pour corriger cette faille via analytic ;)

Salut Jan,

Tu comptes améliorer le script de quelle manière ?

Filtrage sur user-agent de Google Analytics ou sur l'IP utilisée par Google Analytics ?

Lien vers le commentaire
Partager sur d’autres sites

A priori rien ne permet de distinguer Analytics d'un vrai crawl de Googlebot (même user agent, même IP).

Je ne vois pas de solution pour l'instant... mais je cherche ;)

Lien vers le commentaire
Partager sur d’autres sites

OK merci, tiens moi au courant.

Je suis curieux de savoir si les tricheurs ont une arme efficace pour parer le proxy Analytics.

(où bien sinon cela voudrait dire que le cloaking IP deviendrait inutile car trop facile à détecter) ;)

Lien vers le commentaire
Partager sur d’autres sites

Au sujet du cloaking, Matt Cutts vient de publier un billet (03/03/07) : A quick word about cloaking.

Et Jan expose sa parade actuelle dans un billet "La mort du cloaking" sur son blog, je cite :

La seule pseudo-parade que j'ai trouvée pour tenter de cacher une page cloakée aux utilisateurs d'Analytics consiste à faire une redirection en javascript si la page est emprisonnée dans une frame. Mais ça reste du javascript...
Lien vers le commentaire
Partager sur d’autres sites

Pour tester la technique décrite par arnoweb2 :) , Jan a mis en place une page cloakée à cette URL : -www.isabloodycloaker.com/analytics.php

La page vue par l'internaute débute par ceci : "Page for humans. User Agent: (...)" et celle lue par le spider par cela : "Page exclusively for Googlebot! User Agent:(...)"

Lien vers le commentaire
Partager sur d’autres sites

Avoir recours au cloaking n'est que la traduction d'un site non pertinent, sans contenu enrichi, sans maillage qualifié. Si c'est le cas de votre concurrent, frottez vous les mains, vous lui passerez devant

:wow: C'est vraiment super beau ça ... et tellement vrai. Rien ne vaut un site AVEC UN REEL CONTENU

GG notre meilleurs ami a vraiment progresser je trouve dans ce domaine. Dans mes requetes concurrentielles, de nombreux sites utilisants le cloacking ont diaparus, pareil pour les pages satellites. Même les sites utilisants massivement les balises noscript etc ... ont bien reculés.

Cependant, il devient de plus en plus rare de voir des sites très explicites avec un faible nombre de pages placé en tête de résultats si de gros busdozers, même plus généralistes, tapent sur les mêmes requêtes.

-----------------------------------------

:blush: Excusez cette intrusion mais je viens de tomber sur mon dernier post qui date de Janvier 2005 et j'ai eu une larme qui a perlé sur ma joue. Je n'ai pu m'empêcher de poster

-----------------------------------------

Lien vers le commentaire
Partager sur d’autres sites

user agent switcher" de firefox.

Ajoutez le user agent de googlebot ( Googlebot/2.1 (+http://www.google.com/bot.html) par exemple ).

Il vous suffit alors sur la page en question de basculer entre votre user agent et celui de googlebot pour détecter le cloaking

ca ne permet que de vérifier le cloacking sur user agent pas celui sur ip
Lien vers le commentaire
Partager sur d’autres sites

  • 6 months later...

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...