Aller au contenu

Contenu d'un robots.txt


MustyAlien

Sujets conseillés

Bonjour à tous

j'ai beaucoup entendu parlé des fichiers "robots.txt", j'ai fais une recherche sur ce forum, mais n'explique concrètement ce qu'il faut et ce qu'on peut mettre dans un fichier "robots.txt"...

Quelqu'un pourrait me faire un topo sur les différentes commande à mettre dans ce genre de fichier ? si il y en a 50 000, juste les principales ainsi qu'une tite explication si possible... ?

Merci d'avance ;)

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

Tu peux choisir de ne te pas te faire indexer par tel ou tel robot.

Exemple: mettons que tu n'aimes pas MSN. Tu peux faire en sorte avec un fichier robots.txt que tous les bots viennent sauf précisément celui d'MSN.

Tu peux aussi choisir de ne pas faire indexer un répertoire en particulier sur ton site (quel que soit le bot).

Exemple: aucune utilité de faire indexer le répertoire http:/serveur.com/statistiques/ Par définition, les infos de ce répertoire te sont destinées mais ne doivent pas être vues du grand public.

Pour plus d'infos, LE site qui répond à toutes les questions (en anglais uniquement par contre): http://www.robotstxt.org/

Pour information, voici le code à mettre pour mes 2 exemples

User-agent: msnbot
Disallow: /

User-agent:  *
Disallow: /statistiques/

Sinon, tu peux regarder sur à peu près n'importe quel site à quoi ressemble le fichier robots.txt, tenter de le comprendre, puis t'en inspirer ;)

Bon courage

Lien vers le commentaire
Partager sur d’autres sites

Je viens de lire un peu sur le site, ça m'a l'air assez simple, donc si j'ai bien compris :

User-agent: * <== tous les robots

Disallow: <== tout est indexé

Disallow: / <== rien est indexé

Disallow: /temp <== le sous-domaine temp n'est pas indexé

Disallow: /temp/ <== le dossier temp n'est pas indexé

Je sais qu'on ne met pas tout ça, c'est juste pour regrouper tout, j'ai bon là ? ou y a un truc que je n'ai pas compris ?

Dans le cas où j'ai juste, y a un truc que je me demande, si je dois dire que le dossier "pouic" du sous-domaine "glop" ne doit pas être indexé, comment peux t'on l'écrire ?

Merci d'avance :)

Lien vers le commentaire
Partager sur d’autres sites

ah ben là si je suis ton raisonnement, ça devrais correspondre au au dossier "pouic" qui se trouve dans le dosier "glop" de la racine...

ce qui devrais faire : http://www.monsite.com/glop/pouic non ?

Mais je t'avouerais que je n'y connais rien, et que j'apprends, donc tu as peut-être raison

En fait ma question porte sur : http://glop.monsite.com/pouic/

Je me suis peut-être mal expliqué, ça m'arrive souvent lol

ARF ça a mis des liens sur les adresses web, faites pas attention aux liens, j'ai mis n'importe quoi pour l'exemple ;)

Modifié par MustyAlien
Lien vers le commentaire
Partager sur d’autres sites

  • 1 month later...

Oui, il faut toujours au moins une ligne Disallow après chaque ligne User-Agent pour que ce soit valide.

C'est vrai que la syntaxe Disallow tout court est un peu bizarre (et fait peur) mais de toutes façons, en pratique, on trouve toujours au moins un fichier à interdire... ^_^

Lien vers le commentaire
Partager sur d’autres sites

  • 1 month later...
User-agent: * <== tous les robots

Disallow:  <== tout est indexé

<{POST_SNAPBACK}>

Bonjour,

je souhaite savoir quel est l'intérêt de d'indiquer à tous les robots de tout indexer ? N'est-ce pas le comportement par défaut ? Y a-t-il un "plus" à ajouter le robots.txt ?

Lien vers le commentaire
Partager sur d’autres sites

En effet il n'y a pas d'interet à mettre un robots.txt si tu autorises l'indexation à l'ensemble du site.

MustyAlien souhaiterai qu'il n'y ait pas d'ecriture de logs apache lorsqu'il n'ya pas de robots.txt (il est mentionné 404 dans les logs)

Mais plutôt configurer apache pour qu'il n'inscrive pas 404 serait sans doute plus judicieux :)

Lien vers le commentaire
Partager sur d’autres sites

Merci pour ta réponse, Smile.

Euh... je n'ai pas tout compris à ton histoire d'Apache ! :D

Sinon, en cherchant des infos à propos du robots.txt, une autre question m'est venue :

j'ai vu qu'on pouvait aussi mettre ce robot sous la forme d'une balise meta.

Qu'elle différence cela fait ? Qu'est-ce qui est le mieux ? Qu'est-ce que ça change ? (Est-ce qu'il faut, du coup, mettre la balise sur chaque page ?)

Lien vers le commentaire
Partager sur d’autres sites

Merci pour ta réponse, Smile.

Euh... je n'ai pas tout compris à ton histoire d'Apache ! :D

Sinon, en cherchant des infos à propos du robots.txt, une autre question m'est venue :

j'ai vu qu'on pouvait aussi mettre ce robot sous la forme d'une balise meta.

Qu'elle différence cela fait ? Qu'est-ce qui est le mieux ? Qu'est-ce que ça change ? (Est-ce qu'il faut, du coup, mettre la balise sur chaque page ?)

<{POST_SNAPBACK}>

Oublie la META et garde le robots.txt car c'est le premier fichier que les robots vont venir chercher. Pas de robots.txt = pleins d'erreurs 404.

Si ça peut aider, Yooda a un outil sympa pour les robots.txt http://www.yooda.com/outils_referencement/robots_txt.php

Lien vers le commentaire
Partager sur d’autres sites

Oublie la META et garde le robots.txt car c'est le premier fichier que les robots vont venir chercher. Pas de robots.txt = pleins d'erreurs 404

<{POST_SNAPBACK}>

Merci thick.

Euh... c'est que je suis curieuse, moi ! Pourquoi la balise META n'est pas une bonne chose ?

Mais surtout, pourquoi l'absence de robots.txt provoque des 404 ? Je n'ai, jusqu'à maintenant, mis des robots.txt sur aucun de mes sites mais je n'ai pas remarquer des problèmes de 404... Tu peux m'en dire plus ? :(

<edit>

J'apporte un élément de réponse à ma première question : pour la balise, on est obligée de la mettre sur toutes les pages du site !

</edit>

Lien vers le commentaire
Partager sur d’autres sites

Mais surtout, pourquoi l'absence de robots.txt provoque des 404 ? Je n'ai, jusqu'à maintenant, mis des robots.txt sur aucun de mes sites mais je n'ai pas remarquer des problèmes de 404... Tu peux m'en dire plus ? :(

Bonjour,

Ces "erreurs 404" ne sont en rien nuisibles au référencement. Si le fichier robots.txt n'existe pas, quand un robot demande ce fichier, le serveur web (Apache ou n'importe quel autre) répond qu'il n'existe pas au moyen du code "HTTP 404". Cela n'indique pas un comportement erroné du serveur ou un bug. Au contraire, cela fait gagner du temps au robot qui sait ainsi qu'il a le droit de visiter tout le site sans se casser la tête (de robot). ;)

Ces "erreurs 404" apparaissent dans les statistiques. Certains trouvent cela gênant. Mais si jusqu'à présent, ton site se passe de robots.txt, il n'y a certainement pas de raison d'en ajouter un.

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Pour la balise meta, elle ne sert à rien.

Les moteurs de recherche que j'installe ne prennent pas en compte les balises meta, alors qu'ils prennent tous en compte le fichier robots.txt.

Donc, inutile de s'attarder sur les balises meta.

Ceci dit, ca ne va pas bloquer le moteur si un site n'a pas de robots.txt, de même que ca ne va pas déranger ton site si un moteur demande un fichier (le robots.txt ?) qui n'existe pas.

D'un coté, ca répond absent, de l'autre, ca marque une ligne de 'log'.

Cependant, tu peux désirer faire les choses 'proprement', et combler un vide. Ca permettra au moteur d'analyser un fichier.. vide ;)

Lien vers le commentaire
Partager sur d’autres sites

Pour ma part, j'ai toujours été passablement dépité de voir la commande 'site: ' de Google me lister allègrement toutes mes pages en 'meta noindex'...

En revanche, j'ai comme l'impression qu'il m'est impossible de faire sortir ces pages sur une requête normale.

Tout de même... ^_^

Mais c'est vrai que 'robots' est plus "puissant" puisque que l'on dit au robot "ne va pas là" (ce qui ne l'empêche pas toujours d'y aller d'ailleurs)

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...