Aller au contenu

Googlebot et le "crawl caching proxy"


Jan

Sujets conseillés

Bonjour,

Depuis Big daddy, de nombreux webmasters ont fait mention d'un net ralentissement des passages de Googlebot sur leurs sites.

D'autres avaient remarqué que Mediapartners, le robot d'adsense, était utilisé pour l'indexation dans google: http://www.jensense.com/archives/2006/04/a...se_mediapa.html

Un début d'explication à ces phénomènes nous est sans doute fourni par Matt Cutts, qui révèle la mise en place, avec Big daddy, d'un "crawl caching proxy": http://www.mattcutts.com/blog/crawl-caching-proxy/

Pour simplifier, dans le but d'économiser de la bande passante, le principe de ce proxy est le suivant: quand un des bots (par exemple mediapartners) crawle une page, elle devient disponible pour les autres bots sur le proxy. Ainsi Googlebot (le vrai) peut aller en chercher le contenu sur le proxy, sans avoir à crawler la page à son tour.

Avec ce proxy, il devient impossible de savoir quand le contenu d'une page est réellement pris en compte par google. Du coup le ralentissement des passages de googlebot est sans doute normal et n'a rien d'alarmant.

Lien vers le commentaire
Partager sur d’autres sites

Oui j'ai lu ça hier, mais je pense que ça m'explique pas tout. Parce qu'en ce moment, non seuelement google crawl moins (et pourtant dans mon cas je n'ai pas de MediaPartners), mais en plus, il est plus long à indexer les nouvelles pages, les mises à jour, ... J'ai l'impression qu'ils sont en train de régler leur nouvelle techno. Mais bon, quoi qu'il en soit, surement rien d'alarmant effectivement :)

Lien vers le commentaire
Partager sur d’autres sites

Merci pour ces infos, j'avais effectivement noté également un ralentissement de ces visites...

Ceux qui ont mis en place des google sitemaps ont -ils vu un vrai rôle au niveau de la réactivité de google à indexer leurs pages ?

Modifié par astrofiles
Lien vers le commentaire
Partager sur d’autres sites

J'ai un site avec sitemap, mais comme le sitemap proposé à google est statique (bien que généré par php/mysql) ça ne change pas grand chose, il doit toujours trouver les nouvelles pages tout seul ;)

Lien vers le commentaire
Partager sur d’autres sites

La question qui brûle les lèvres: les sites "avec Adsense" seraient donc logiquement mieux crawlés que les sites "sans Adsense".

Je sais que les deux n'ont rien à voir, MAIS..

Le bot Mediapartners/Adsense passe ses journées et ses nuits sur un site qui a Google comme régie. Les pages sont donc logiquement en cache, et accessibles beaucoup plus vite par l'autre bot qui n'a pas à se farcir le crawl.

Non ?

En tous cas, sur un des sites que je gère, une page supprimée depuis 15 jours (avec en-tête 404) est toujours dans l'index. Avant ce genre de modifs était pris en compte dès le lendemain.

Donc je veux bien croire à toutes ces histoires de bot Mediapartners, de proxy et tout ce que vous voulez.. n'empêche que.

Donc à mon avis, c'est aussi et surtout une annonce avec effet placebo pour faire taire la grogne chez les webmasters.

D'ailleurs, que sait faire d'autre l'ami Matt Cutts ? :hypocrite: (désolé c'était trop tentant)

Lien vers le commentaire
Partager sur d’autres sites

Ces infos me "rassurent"... j'ai un site lancé pour un client il y a presque un mois toujours pas indexé par Google, ça ne m'était jamais arrivé avant donc je commençai à me demander ce qui arrivait !

D'une manière générale, je trouve que les services de Google souffre d'une baisse de qualité... d'abord Google Analytics puis GMail... Phénomène d'échelle ?

Lien vers le commentaire
Partager sur d’autres sites

Donc à mon avis, c'est aussi et surtout une annonce avec effet placebo pour faire taire la grogne chez les webmasters.

En même temps c'est facile à vérifier, il suffit de regarder s'il y a encore des crawl MediaPartners ou si tout ce que tu vois est du Mozilla Googlebot.

Lien vers le commentaire
Partager sur d’autres sites

La question qui brûle les lèvres: les sites "avec Adsense" seraient donc logiquement mieux crawlés que les sites "sans Adsense".

Je sais que les deux n'ont rien à voir, MAIS..

Le bot Mediapartners/Adsense passe ses journées et ses nuits sur un site qui a Google comme régie. Les pages sont donc logiquement en cache, et accessibles beaucoup plus vite par l'autre bot qui n'a pas à se farcir le crawl.

Non ?

Non d'après ce que dit Matt Cutts : Mediapartners crawle les pages Adsense, les mets dans le proxy, mais ça n'accélere pas les accès à la version cachée des pages par Googlebot.

A la limite (cas d'école) on peut concevoir une page Adsense qui soit crawlée et caché quotidiennement par Mediapartners mais jamais accédée par Googlebot parce que ne possédant aucun lien entrant.

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...