Aller au contenu

Google cherche des fichiers inexistants


Jeanluc

Sujets conseillés

Bonjour,

Sur un site en hébergement mutualisé, Googlebot s'acharne à rechercher des fichiers qui n'existent pas sur mon site. J'ai constaté que ces fichiers existent dans d'autres domaines virtuels à la même adresse IP.

Par exemple, Google recherche /machin.php?alpha=35 sur mon site. Ceci entraîne une erreur 404. Par contre, cette adresse existe bien sur un autre domaine hébergé à la même adresse. Le problème se présente quotidiennement et les confusions se font avec plusieurs adresses appartenant à plusieurs domaines virtuels différents.

Ce qui est remarquable, c'est que seuls Googlebot et le robot Mediapartners souffrent de ce problème. MSNbot et Yahoo Slurp qui sont aussi très présents n'ont pas ce problème.

Conséquences :

- il arrive que Google place des pages de ces autres domaines virtuels dans les résultats de la commande site: avec le nom de mon site;

- Google risque de dégrader mon site pour un nombre excessif d'erreurs 404.

Google dit que c'est la faute à l'hébergeur, sans plus de précision. L'hébergeur dit qu'il ne voit pas ce qui cloche.

Ceci pourrait vouloir dire que le problème ne se présente que quand un visiteur (robot) fait une série d'accès très rapides à deux domaines virtuels différents... Mais j'imagine que le serveur web doit pouvoir gérer cela, non ?

Que faire ?

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Ah oui c'est embetant... tu aurais pu mettre une règle disant : "si le fichier demandé n'existe pas sur le serveur, alors 301"

mais vu que les URL crawlées changent tout les jours, je ne suis pas sur que ça soit très bon pour le référencement du site...

Lien vers le commentaire
Partager sur d’autres sites

Tu serais en train de dire que Google se trompe, en crawlant les IP, au lieu de crawler les noms de domaine ?

Il n'y aurait pas plutot l'url des domaines qui ferait le 'petit malin', avec des redirections scrabreuses ??

Ca ressemble à des manipulations de redirection type 301,302, qui.. ne marchent pas.

Si Google avait des problèmes entre un nom de domaine et une adresse IP, il y aurait longtemps qu'il aurait mis la clé sous la porte, non ?

Tu as des exemples d'adresses de ce type ? (en MP, eventuellement.. ;) )

Lien vers le commentaire
Partager sur d’autres sites

@kimberlyclarko : j'ai déjà une règle dans le .htaccess qui fait une redirection 301 sur tout ce qui n'est pas destiné à www.mon-domaine.com. Au départ, c'était pour éviter les accès via mon-domaine.com (sans www). Les accès erronés de Googlebot (404) sont tous précédés d'une redirection 301.

@Anonymus : je dis seulement que le problème ne se présente que pour les accès de Googlebot et Mediapartners (25 fois ces 4 derniers jours), mais je pense que c'est probablement provoqué par une configuration inhabituelle ou mal faite du serveur.

Mon .htaccess contient

RewriteCond %{HTTP_HOST} !^www.mon-domaine.com$ 
RewriteRule ^(.*)   http://www.mon-domaine.com/$1  [QSA,L,R=301]

Il semble que, dans certains cas, quand le visiteur est un robot de Google, mon .htaccess récupère des URL d'autres domaines virtuels du même serveur. J'ai vérifié plusieurs de ces URL et elles appartiennent à des sites différents et n'ont rien de particulier ou suspect.

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

.... N'y aurait il pas un problème de conflit avec ton script en perl ?? (de simulation google), qui soit dit en passant, est assez sympa (l'outil, pas le perl :lol: ) ...

Lien vers le commentaire
Partager sur d’autres sites

.... N'y aurait il pas un problème de conflit avec ton script en perl ?

En fait, je constate le problème sur deux sites chez cet hébergeur (les 2 sites sont sur des machines différentes). Donc rien à voir avec l'un ou l'autre de mes scripts. :)

Je soupçonne plutôt une config mal faite ou peut-être un bug Apache.

Normalement, ces 25 erreurs 404 en 4 jours seraient sans importance, mais j'ai peur qu'elles nuisent au référencement de ces sites.

Jean-Luc

P.S. tout le monde dit que PHP est mieux, plus rapide et tout et tout, et pourtant... Perl me convient toujours très bien. ;)

Lien vers le commentaire
Partager sur d’autres sites

P.S. tout le monde dit que PHP est mieux, plus rapide et tout et tout, et pourtant... Perl me convient toujours très bien. ;)

<{POST_SNAPBACK}>

Oh là !!

Perl est vraiment mieux que Php, mais.. php est (peut etre) plus adapté que Perl pour tout ce qui est 'internet'.

Ceci dit, pour tout ce qui nécessite un tant soi peu de puissance, Php manque parfois d'un peu de... maturité ?.

[Fin du troll, y'a matière à polémique ;)]

Lien vers le commentaire
Partager sur d’autres sites

  • 1 month later...

Bonjour,

J'aimerais revenir sur le sujet de départ de ce fil qui est toujours non résolu :

Sur un site en hébergement mutualisé, Googlebot s'acharne à rechercher des fichiers qui n'existent pas sur mon site. J'ai constaté que ces fichiers existent dans  d'autres domaines virtuels à la même adresse IP.

Par exemple, Google recherche /machin.php?alpha=35 sur mon site. Ceci entraîne une erreur 404. Par contre, cette adresse existe bien sur un autre domaine hébergé à la même adresse. Le problème se présente quotidiennement et les confusions se font avec plusieurs adresses appartenant à plusieurs domaines virtuels différents.

Selon Google, le problème est chez l'hébergeur. Selon l'hébergeur, le problème est lié à l'emploi de la technologie VDS de Sphera qui affirmerait que le problème est en discussion avec Google depuis des mois. :gueule:

J'essaie d'y voir plus clair. Avez-vous des sites hébergés dans un environnement Sphera VDS (Virtual Dedicated Server = un serveur Apache par site hébergé). Si oui, surveillez-vous votre liste d'erreurs 404 ? Chez moi, une part importante des erreurs 404 sont causées par Googlebot.

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...