Aller au contenu

robots.txt indexé


thick

Sujets conseillés

On dirait en effet que tu n'est pas le seul dans ce cas :

http://www.google.fr/search?q=inurl%3Arobots.txt

Tu peux essayer de lui coller un "Disallow: robots.txt" ?

C'est marrant, dans le robots.txt de la maison blanche, il y a ca :

Disallow: /goodbye/iraq (entre autres)

Ils doivent se battre contre toutes les liens entrants qui font gober à GGbot des URL farfelues :D

Modifié par kimberlyclarko
Lien vers le commentaire
Partager sur d’autres sites

Marrant de voir ce que les gens peuvent coller dans ce fichier :o

Dommage que dans celuis de la maison blanche on ne trouve pas un

Disallow: /goodbye/georgebush

Tu crois vraiment qu'un "Disallow: robots.txt" va le faire ? Ca me parait un peu tiré par les cheveux...

J'ai presque envie de zapper complétement le fichier pendant un moment.

Lien vers le commentaire
Partager sur d’autres sites

Tu crois vraiment qu'un "Disallow: robots.txt" va le faire ? Ca me parait un peu tiré par les cheveux...

Bonjour,

Ce n'est certainement pas la solution. Le fichier robots.txt interdit la lecture de certains fichiers, pas leur indexation. Si tu interdis la lecture de robots.txt et qu'après cela, Google n'ose plus le lire, tu seras bien avancé... :wacko: Comment lui diras-tu ensuite qu'il peut revenir le lire à nouveau ?

Jean-Luc

Modifié par Jeanluc
Lien vers le commentaire
Partager sur d’autres sites

Pourquoi certains robots.txt sont-ils indexés ?

Essai de réponse: parce qu'il existe quelque part sur le web un lien vers ce fichier.

Début de preuve:

- robots.txt de www.google.com : PageRank = 4

- robots.txt de www.7-dragons.com : PageRank = 1

- robots.txt de mes sites : PageRank = 0

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

  • 2 years later...

Bon ben me voila dans le cas.

J'ai donné une ou deux fois un lien direct vers mon robots.txt (pour aider au référencement wordpress) et le voila dans google.

C'est pas très gênant, faut vraiment chercher des d'instructions pour tomber dessus, mais je me demandais si il existe une solution pour le désindexer ...

Je pensais à GG webmaster tools et le retrait d'url, mais il faut une 404 pour qu'il accepte le retrait ...

Lien vers le commentaire
Partager sur d’autres sites

Désindexer le fichier robots.txt c'est surement la bonne et (unique ?) solution mais il faut aussi supprimer les liens vers ce fichier car si le fichier robots.txt est indexé c'est qu'il a été mis en référant quelque part sur un forum ou un site d'un webmaster.

Si tu le desindexe il se re indexera à cause du lien référant.

Je suppose que quelqu'un a cité le fichier robots.txt de Thick quelque part en faisant un lien en dur donc à part trouver le lien (ou les liens en question) et demander au webmaster du site de les supprimer je vois pas d'autres solutions.

Une fois qu'il n'y aura plus de lien il faudra que tu désindexes le fichier via l'outils de google mais pour cela il faudra que tu supprimes temporairement le fichier robots.txt de ton site afin que ca gènère une erreur 404 (cf message d'ALeX!S). Une fois desindexé tu remets le fichier robots.txt.

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...