Aller au contenu

Site dont le crawl ne dépasse pas la page 1 sur Xenu et autre bot


milkiway

Sujets conseillés

Bonjour,

En essayant de lancer un Xenu sur mon site actuel pour faire une cartographie de toutes mes URL, j'ai découvert que le logiciel ne parvenait pas à crawler le site : il reste bloqué sur la home :wacko: Ca ne me le fait que pour ce site là.

De plus, de temps en temps (rarement) on me dit qu'il est impossible d'accéder à mon site : il renverrait une erreur de dingue (du genre des signes étranges de partout en noir sur fond blanc).

Pire encore, quand je teste une page profonde du type http://www.cuisinetoo.com/recette-de-sandwich-camembert-jambon-fume.html'> http://www.cuisinetoo.com/recette-de-sandwich-camembert-jambon-fume.html

=> Xenu ne donne aucun lien, comme s'il ne voyait pas la page !

Enfin, je viens de tester avec un autre crawler, GsiteCrawler... ça fait pareil!

1- Pourriez vous jeter un oeil pour savoir si ça le fait de chez vous ? URL : http://www.cuisinetoo.com

2- Savez vous pourquoi Xenu & autres crawler pevent bloquer sur la home ?

Le plus fou c'est que Google indexe bien mes pages. Mais p-e qu'il y a un vrai problème et qu'en plus ça limite mon référencement ?

Au niveau du header HTTP j'ai ça :


HTTP/1.1 200 OK
Date: Mon, 08 Mar 2010 17:26:06 GMT
Server: Apache/2.2.X (OVH)
X-Powered-By: PHP/4.4.9
Set-Cookie: deja_venu=1
Cache-Control: max-age=86400, public
Expires: Thu, 19 Jan 2012 08:37:33 GMT
Vary: Accept-Encoding
Content-Type: text/html

Merci

Lien vers le commentaire
Partager sur d’autres sites

Ton site renvoie du contenu compressé, mais n'indique pas dans les headers qu'il est compressé. Je suis en fait surpris que les browsers et certains robots s'y retrouvent quand même, mais visiblement ce n'est pas toujours le cas.

Jacques.

Lien vers le commentaire
Partager sur d’autres sites

Posté (modifié)

Merci pour ta réponse. A quoi vois tu que le contenu est compressé ?

Comment réparer le problème/ indiquer dans les header que c'est compressé ?

J'ai ça en début de mes pages, tous les sites ne l'utilise pas ?

ob_start("ob_gzhandler");

Comment expliquer que la page d'accueil puisse etre crawlée ainsi que celles qui ont un lien sur la home mais pas les URL suivantes alors que toutes ont la même structure ?

J'ai fait un test : http://nontroppo.org/tools/gziptest/?url=http%3A%2F%2Fwww.cuisinetoo.com&uas=&onlyheaders=on&showbody=on

On me dit que c'est compressé.

Je suis un peu perdu !

Merci

Modifié par milkiway
Lien vers le commentaire
Partager sur d’autres sites

Avec curl, tu vois tout de suite le résultat... Et avec un petit pipe dans gunzip c'est plus clair. La page d'accueil n'est pas compressée dans ce cas de figure.

Ce n'est a priori pas juste le ob_gzhandler. D'après la doc, il vérifie ce que le client accepte comme compression (dans Accept-Encoding), et s'adapte. D'ailleurs sur la page d'accueil c'est le cas: si tu ne dis rien, il ne compresse pas, et si tu dis que tu acceptes du gzip, il compresse, et il ajoute bien le header.

Tu dois donc avoir quelque chose d'autre ailleurs qui compresse systématiquement les pages autres que la home, sans vérifier si le client est d'accord, et sans ajouter le header qui va bien.

Jacques.

Lien vers le commentaire
Partager sur d’autres sites

Posté (modifié)

Merci tu es un génie ! J'ai enlevé le ob_gzhandler et tout fonctionne sur mon site local, je vais pouvoir uploader.

Merci beaucoup jcaron.

Modifié par milkiway
Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...