Version complète: sur le forum Webmaster Hub : Des bots inconnus de Google ?
Webmaster Hub > Promotion de Sites Internet > Techniques de Référencement
hikaru59
Salut,

J'ai placé une page piège sur mon site dans le but de récolter les adresses IP des robots malveillants. Le lien vers cette page piège est en nofollow. La plupart des bons robots respecte le nofollow (googlebot, yahoo, msn), sauf quelques uns :
Les adresses IP de ces bots (IP hote inconnus) sont : 66.249.85.130, 66.249.84.12, 72.14.195.49, 72.14.193.133, etc...
et utilisent l'user-agent : Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)

D'après la base de données domaintools.com, ces IP appartiennent à google.
Mais d'habitude, leur IP hote est crawl.xxxx.googlebot ou Mediapartners-Google.

Que font ces bots inconnus de google sur nos sites à votre avis ?
Dudu
Salut

Je viens de relire sur le blog officiel de Google l'article sur l'attribut rel="nofollow".
Nulle part, il n'est indiqué que les robots ne doivent pas suivre ces liens. Ils ne doivent juste pas leur donner une importance, du "link juice" comme on dit.

À mon avis, tu confonds avec le protocole d'exclusion des robots qui se fait via un fichier robots.txt
Lui, en revanche, interdit bien aux (bons) robots de parcourir certaines pages.


Pour le fait que le User Agent ne soit pas renseigné: effectivement on peut ne pas trouver ça fair-play mais personne n'est tenu d'avoir un UA explicatif, même Google.
Ils mettent les UAs qu'ils veulent wink.gif
Leonick
C'est peut être juste pour voir si les internautes ont bien le même contenu que le bot de google whistling.gif
Dudu
Leonick, tu parles de cloaking ?

À mon avis, les "vrais" cloakeurs font plutôt du cloaking sur IP que du cloaking sur UA.
Du coup, ça m'étonnerait que les moteurs s'amusent à envoyer des robots avec un UA d'Explorer 6 juste pour attraper deux ou trois black hats en culotte courte qui s'amusent à cloaker sur le User-Agent. Cette théorie fait un peu "tractopelle pour écraser une fourmi".

Enfin, à mon avis wink.gif
Leonick
un peu sur le cloaking et aussi pour voir si le contenu de la page change selon le referer.
Depuis plusieurs mois, j'ai des connexions de ce genre avec des ip en provenance de microsoft sur des requêtes très généralistes du genre hôtel, alors que là dessus, je suis invisible. On ne me trouve, dans ce domaine, qu'avec des requêtes à plusieurs mots clés.
mathieujava
Je vais peut être dire une connerie, (ne connaissant pas assez la technologie employé par ces acteurs) mais ce ne serait pas les outils de certaines agences qui viennent crawler le web et envoie des requêtes pour faire des enquêtes concurrentiels et autres benchmark?

Leonick
Non, sinon on n'aurait pas des ip en provenance de gg, mais l'ip du demandeur
hikaru59
CITATION(Leonick @ jeudi 25 septembre 2008 à 01:19) *
C'est peut être juste pour voir si les internautes ont bien le même contenu que le bot de google whistling.gif


Ok, mais ce n'est pas une raison pour ignorer le nofollow.
Parce que le simple fait de se rendre sur la page piège vous fait bannir automatiquement du site.

PS : je sais, mais c'est la seule méthode infaillible contre les aspirateurs.
Remi
Je ne pense pas qu'on puisse qualifier de "malveillant" un robot qui suit un no-follow.
Relis bien la première réponse de Dudu : il a tout dit... cool.gif
hikaru59
Ce qui est sûr c'est que google avec un IP hote : crawl.xxxx.googlebot ou Mediapartners-Google
n'a jamais suivi les liens vers la page piège en nofollow.
Ceci est une version "bas débit" de notre forum. Pour voir la version complète avec plus d'information, la mise en page et les images, veuillez cliquer ici.