Aller au contenu

Nouveau chez Googlebot ?


Dan

Sujets conseillés

Bonjour à tous,

Depuis quelques jours, les crawlers se battent en duel sur le Hub... mais une chose que je n'avais encore jamais remarquée c'est qu'au départ d'un même crawler (même IP) je pouvais avoir à une seconde d'intervalle deux User_Agent différents.

Par exemple:

crawl-66-249-66-194.googlebot.com - - [26/Feb/2006:18:53:56 +0100] "GET /index.php?showtopic=21977&st=0&p=156372 HTTP/1.1" 200 9416 "-" "Mediapartners-Google/2.1"

crawl-66-249-66-194.googlebot.com - - [26/Feb/2006:18:53:57 +0100] "GET /index.php?act=usercp&CODE=start_subs&method=topic&tid=21971 HTTP/1.1" 200 3328 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Avez-vous déjà remarqué cela chez vous ?

J'ai depuis ce midi près de 20 000 passages de GoogleBot avec cette IP.

Lien vers le commentaire
Partager sur d’autres sites

Des crawls "frénétiques" de Googlebot sont signalés par beaucoup de webmasters depuis deux jours, notamment sur webmasterworld. Je vois même Mediapartners s'acharner sur des pages qui n'affichent pas d'adsenses :wacko:

Lien vers le commentaire
Partager sur d’autres sites

Ce ne sont pas trop les crawls frénétiques qui suscitent ma question, mais surtout le fait que sous une même IP, j'ai deux User_Agent diférents à une seconde d'intervalle.

Lien vers le commentaire
Partager sur d’autres sites

Bha, ca ne me parrait pas bizard car j'ai aussi les 2 users agents qui passent sur mon site (je n'ai pas fait gaffe a leur URL).

Ce qui me parait dingue, c'est que GG s'amuse a crowler les sites 2 fois :

  • 1 fois pour le moteur de recherche
  • 1 seconde fois pour adsense

Ca aurait ete plus econnique en ressources et pour le web en generale de ne le faire qu'un fois et/ou d'utiliser la meme base de donnee.

M'enfin, ils ont surement des raisons.

Lien vers le commentaire
Partager sur d’autres sites

Ce n'est peut être pas exactement le même sujet, mais je viens de me rendre compte d'un truc. J'ai un site recent (lancé il y a quelques mois entre le dernier et l'avant dernier update de pr). Je n'ai mis mon outil de stats que depuis une semaine sur ce site. Il n'est crawlé que par "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Lien vers le commentaire
Partager sur d’autres sites

mediapartners c'est pour les adsense et googlebot pour l'index de google

Merci, je savais cela :P

C'était pour demander si d'autres que moi avaient déjà vu 2 user_agent différents pour une même IP, pas pour savoir à quoi correspondaient les user_agent :unsure:

Dan

Lien vers le commentaire
Partager sur d’autres sites

Deux hypothèses :

1. Il s'agit d'une nouvelle méthode de crawl permettant de détecter le cloaking

2. Google a enfin compris que c'était très nul d'avoir deux crawls totalement séparés, l'un pour adsense, l'autre pour le moteur... Et ils ont enfin fusionnés les deux systèmes.

Sauf qu'il faut toujours deux spiders mais c'est géré par le même crawler maintenant.

J'ai un faible pour la deuxième hypothèse (;) )

Lien vers le commentaire
Partager sur d’autres sites

Je pense que ta première hypothèse ne tient pas... en tout cas pas pour ceux "qui savent" et qui font du cloaking en se basant sur l'IP...

J'aurais tendance à opter pour la deuxième, moi aussi :)

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...