Fichier robots.txt

klaroo · 10 Décembre 2004

Bonjour,

Google indexe des répertoires malgré les instructions du fichier robots.txt :

www.territorial.fr/robots.txt

Les autres moteurs ont respecté les instructions.

Est-ce qu'il y aurait une subtilité qui m'aurait échappé ?

Merci pour vos conseils :rolleyes:

klaroo

Emploi fonction publique

Remi · 10 Décembre 2004

Google respecte généralement bien les limitations robots.txt .

Par contre, si tu as dans un premier temps laissé l'accès libre à un répertoire, puis ensuite limité l'accès par une instruction robots.txt (ou par un 'noindex'), là il va mettre des mois à enlever les pages de l'index.

D'une manière générale, Google est très lent pour enlever des pages de l'index.

klaroo · 10 Décembre 2004

Merci, je vais donc patienter encore un peu...

klaroo

AntiStatic · 10 Décembre 2004

Salut,

perso je dirais plutot que Google ne respecte pas les interdictions du fichier robots.txt, j'en suis meme certains étant donné qu'il est passé outre meme en ayant mis mes robots.txt dès le lancement de mes sites.

Apparement le seul moyen d'empecher Google d'indexer des pages est de mettre un meta :

<meta name="robots" content="noindex,nofollow">

Et si tu rajoute ce tag maitenant tu peux attendre plusieurs semaines avant de voir tes pages disparaitre de l'index de Google ... moi ca fait 2 semaines que j'attend déjà

A +

**Jeanluc** · 10 Décembre 2004

Si on en croit Google – Informations pour Webmasters, Google respecte robots.txt. Cela ne veut pas dire que Google ne reprend pas les URL concernées dans son index. Pour cela, il suffit que Google les trouvent mentionnées dans un autre site. J'ai l'exemple d'un site qui fait un lien vers mon site mais en indiquant, par erreur, une URL d'une page qui n'a jamais existé. Cette URL se retrouve avec site: dans la liste des "pages référencées" de mon site!

C'est probablement, pour cela, que la seule solution pour être sûr qu'une page ne soit pas indexée est l'emploi de la commande META avec l'option noindex, comme l'a indiqué A à Z Fleurs.

Jean-Luc

nalrem · 10 Décembre 2004

Pour être déréférencé rapidement de google, il faut mettre en place le fichier robot.txt puis aller sur le site de google, il y a un formulaire à remplir pour désindexer un site.

Dans mon souvenir, c'était assez rapide, moins de 2 jours...

Stephane · 10 Décembre 2004

Même constat, Google ne respecte plus le standard Robots.txt :angry:

Mais après tout ça peut se comprendre. On ne passe pas du jour au lendemain à un index de 8 milliards de documents sans emmerder au passage quelques milliers de webmasters...

C'est d'autant plus dommage que le Robots.txt était jusqu'à présent la seule méthode d'exclusion des robots pouvant être qualifiée de standard. Les balises Meta n'avaient jamais fonctionné partout.

Seule méthode fiable à 100% dorénavant, bannir les vilains robots par htaccess dans les répertoires à protéger.

Remi · 11 Décembre 2004

il y a un formulaire à remplir pour désindexer un site.
Dans mon souvenir, c'était assez rapide, moins de 2 jours...

Le formulaire ne marche que pour des pages qui n'existent plus.

Pour déréférencer une page, le problème reste entier.

Ce que dit Stéphane m'a étonné, parce j'avais l'impression que robots.txt marchait mieux que les META : moi, je ne vois pas passer le robot dans des répertoires interdits.

Par contre pour déréférencer certaines pages (des gros plan d'images, parce que j'ai peur qu'il considère toutes ces pages comme du duplicate content), j'ai voulu ruser pour aller plus vite et je les ai renommées et mis les nouvelles en META "noindex,follow". Et bien, non seulement il a mis plusieurs mois pour m'enlever les pages en 404, mais en plus il m'a indexé quand même les nouvelles.

Peut-être que mon erreur est de mettre 'follow'... Je ne sais pas pourquoi j'ai mis follow d'ailleurs... :unsure:

Modifié 11 Décembre 2004 par Remi

Anonymus · 15 Décembre 2004

C'est marrant, j'en parlais il y a de cela un peu plus d'un an, en posant la question : Et si les robots ne respectaient plus les fichiers robots...

Bon.. Il n'était déjà pas évident de parler, aux novices, des fichiers robots.txt, il faudra maintenant leur parler des fichiers htaccess..

petit-ourson · 15 Décembre 2004

Hum par contre google indexe les robots.txt ? ...

Remi · 15 Décembre 2004

Non.

Pourquoi? Tu veux mettre des mots-clés dedans ?

petit-ourson · 16 Décembre 2004

Ce n'était pas une question. Une constatation personnelle ;o) Le point d'intérrogation n'était pas approprié.

exemple

Tout le monde sait ce que je ne veus pas que les gens sachent ;o)

**Dan** · 16 Décembre 2004

Tout le monde sait ce que je ne veus pas que les gens sachent ;o)

Surprenante cette indexation !

Pour le "tout le monde sait", il suffisait déjà d'appeler le fichier robots.txt dans le navigateur pour le voir

Il en a indexé quelques uns http://www.google.com/search?hl=en&q=inurl...G=Google+Search

Anonymus · 16 Décembre 2004

Dan, c'est surprenant qu'il n'y ait 'que' 220 000 robots d'indexés !!

Petit Ourson, effectivement, tous les moteurs indexent les robots.tx, ne serait ce pour savoir ce qu'il y a dedans,

Par contre, il suffit de faire domaine.com/robots.txt pour connaitre le 'robots.txt' de n'importe quel site.

Attention : Ce fichier n'est en rien une protection contre quoi que ce soit !! C'est une indication !! N'importe qui a accès à ce fichier, et mettre des répertoires 'secrets' dedans est une c..., car c'est 'pointer du bout du doigt ces mêmes répertoires.

!!

petit-ourson · 16 Décembre 2004

ouaip effectivement mais c'est un bon moyen de tracer certaines actions si le répertoire n'existe pas derrière ;o)

Remi · 16 Décembre 2004

Bon, ça m'apprendra à ne pas répondre trop vite...

C'est tout de même bizarre ce truc.

Vous avez remarqué les titres?

Le fait qu'un robots.txt se retrouve indexé n'est-il pas le résultat d'une erreur quelconque? Par exemple, j'ai vu un site où un rewriting trop général perturbait l'accès à robots.txt.

Modifié 16 Décembre 2004 par Remi

Anonymus · 16 Décembre 2004

Imagines que le crawler soit configuré pour ne pas respecter le robots.txt.

Il récupère le robots.txt, et a ainsi le nom des répertoires confidentiels à crawler.

Donc, en quelque sorte, il passe outre le rewriting, qui n'est généralement pas concu pour interdire l'accès aux répertoires si on tape la requète directement.

Patrick · 16 Décembre 2004

En complément des précédentes réponses :

Tu peux également utiliser la balise suivante :

<meta name="robots" content="noindex,noarchives">

"noarchives" sera pris en compte par Google uniquement. Cela permettra aux pages concernées de ne pas être incluses dans le système de cache du moteur et donc en facilitera la désindexation.

Cordialement.

Jan · 16 Décembre 2004

Adifco Référencement,

Il me semble qu'il faut écrire "noarchive" plutôt que "noarchives": http://www.google.com/webmasters/3.html

Cette instruction est-elle vraiment utile à partir du moment ou "noindex" indique qu'il ne faut pas indexer la page?

Connexion

Fichier robots.txt

Sujets conseillés

klaroo

Remi

klaroo

AntiStatic

Jeanluc

nalrem

Stephane

Remi

Anonymus

petit-ourson

Remi

petit-ourson

Dan

Anonymus

petit-ourson

Remi

Anonymus

Patrick

Jan

Veuillez vous connecter pour commenter

Contenu similaire

Publicité et robots.txt

Du ménage dans les urls

Référencement + changement domaine et hébergement

Redirection / mise en ligne d'un site updaté

Parcourir

Activité