Aller au contenu

Robots.txt, exclure toutes une série de pages ...


AntiStatic

Sujets conseillés

Salut à tous !

est-ce que quelqu'un serait comment exclure grace à un fichier robots.txt toute une série de pages ayant la même structure de nom. Je m'explique : j'ai quelques dizaines de milliers de pages qui sont nommées ainsi : "mapage-ID_DE_MA_PAGE.html".

Elles vont de mapage-1.html à mapage-40000.html et je voudrais toutes les supprimer des index des moteurs de recherche. Mais je me vois mal mettre dans mon robots.txt 40000 lignes d'exclusion :/ Il doit bien y avoir une astuce ?

Ensuite, je possède également des pages avec un nom du type : mapage-ID_DE_MA_PAGE-A.html, mapage-ID_DE_MA_PAGE-B.html, mapage-ID_DE_MA_PAGE-C.html, ... et j'aimerais aussi les exclure de la même facon.

Y a t'il la possibilité de dire dans le robots.txt : exclut toutes les pages dont le nom commence par "mapage-" par exemple ? Ce la me permettrait de toutes les exclure rapidement !

Merci pour votre aide !

Lien vers le commentaire
Partager sur d’autres sites

Carrement cool ! Merci Dan !

Et juste une autre petite question, à votre avis quelle taille max je peux avoir pour mon fichier robots.txt. Car sinon je viens de tester en faisant une boucle sur les 40000 noms de page et ca me ferait un robots.txt d'environ 1,5Mo ! Ca pourrait passer pour les moteurs ou il n'arriveront pas à tout lire selon vous ?

Lien vers le commentaire
Partager sur d’autres sites

A mon avis c'est beaucoup trop long.... et de plus ils vont te bouffer la bande passante.

Un fichier robots.txt ne devrait pas dépasser les recommandations pour la taille d'une page, c'est à dire 100K si mes souvenirs sont bons.

Lien vers le commentaire
Partager sur d’autres sites

Googlebot le permet, mais ce n'est pas standard ...

Donc si tu veux interdire à GoogleBot l'indexation de ces pages, tu peux utiliser simplement

User-Agent: Googlebot

Disallow: /mapage-*

Dan,

Je comprends ce que tu veux dire, mais ici on peut obtenir exactement le même effet avec des directives 100% standards, donc comprises par tous les robots de bonne volonté ;) :

User-Agent: *
Disallow: /mapage-

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...