Jump to content
Sign in to follow this  
AntiStatic

Robots.txt, exclure toutes une série de pages ...

Rate this topic

Recommended Posts

Salut à tous !

est-ce que quelqu'un serait comment exclure grace à un fichier robots.txt toute une série de pages ayant la même structure de nom. Je m'explique : j'ai quelques dizaines de milliers de pages qui sont nommées ainsi : "mapage-ID_DE_MA_PAGE.html".

Elles vont de mapage-1.html à mapage-40000.html et je voudrais toutes les supprimer des index des moteurs de recherche. Mais je me vois mal mettre dans mon robots.txt 40000 lignes d'exclusion :/ Il doit bien y avoir une astuce ?

Ensuite, je possède également des pages avec un nom du type : mapage-ID_DE_MA_PAGE-A.html, mapage-ID_DE_MA_PAGE-B.html, mapage-ID_DE_MA_PAGE-C.html, ... et j'aimerais aussi les exclure de la même facon.

Y a t'il la possibilité de dire dans le robots.txt : exclut toutes les pages dont le nom commence par "mapage-" par exemple ? Ce la me permettrait de toutes les exclure rapidement !

Merci pour votre aide !

Share this post


Link to post
Share on other sites

Carrement cool ! Merci Dan !

Et juste une autre petite question, à votre avis quelle taille max je peux avoir pour mon fichier robots.txt. Car sinon je viens de tester en faisant une boucle sur les 40000 noms de page et ca me ferait un robots.txt d'environ 1,5Mo ! Ca pourrait passer pour les moteurs ou il n'arriveront pas à tout lire selon vous ?

Share this post


Link to post
Share on other sites

A mon avis c'est beaucoup trop long.... et de plus ils vont te bouffer la bande passante.

Un fichier robots.txt ne devrait pas dépasser les recommandations pour la taille d'une page, c'est à dire 100K si mes souvenirs sont bons.

Share this post


Link to post
Share on other sites
Googlebot le permet, mais ce n'est pas standard ...

Donc si tu veux interdire à GoogleBot l'indexation de ces pages, tu peux utiliser simplement

User-Agent: Googlebot

Disallow: /mapage-*

Dan,

Je comprends ce que tu veux dire, mais ici on peut obtenir exactement le même effet avec des directives 100% standards, donc comprises par tous les robots de bonne volonté ;) :

User-Agent: *
Disallow: /mapage-

Jean-Luc

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

  • Similar Content

    • By fbern
      bonjour



      dans ses recommandations, Google préconise de bloquer grâce au robots.txt les publicités présentes sur son site.

      http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=35769



      Quelle est la directive à utiliser pour lui bloquer les publicités Adsense ?



      d'autre part - et pardon si ma question est idiote - mais il y a des liens d'affiliation sur notre site- cela n'équivaut-il pas à des liens achetés ? comment se fait-il que google ne pénalise pas ces liens là (pure curiosité).



      Merci comme d'habitude aux professionnels seo de ce forum



      fbern

    • By Dan
      Webmaster Hub a le plaisir de mettre à disposition de ses membres une nouvelle rubrique Outils à dater de ce jour.

      Cette rubrique est amenée à se développer rapidement mais propose dès sa création quelques outils originaux, à savoir:
      Un visualisateur (ou vérificateur) d'entêtes HTTP permettant l'analyse détaillée des entêtes HTTP d'URLs (pages ou éléments de pages web). Sa particularité la plus intéressante est le suivi des redirections (limité à 8 pour éviter les boucles infinies) . Cet outil sera très utile à tous ceux qui utilisent des redirections ou réécritures d'URLs, en suivant les conseils donnés dans les articles du volet publications du Hub.
      Plus spécifiquement les articles: Le fichier .htaccess
      Mod_rewrite, ou la réécriture des URL "à la volée"
      La réécriture d'URL récursive

      [*]En partenariat avec Yooda, un formulaire de soumission automatique dans les moteurs et les annuaires qui fera gagner un temps considérable et augmentera l'efficacité de votre travail de référencement.
      [*]Toujours chez Yooda, un analyseur et éditeur de fichier robots.txt, qui vous permet d'analyser le fichier robots.txt de votre site, et de l'éditer pour le corriger si nécessaire.

      Si vous voulez être tenu au courant dès la parution des autres outils en développement, n'oubliez pas d'éditer votre profil pour souscrire à la lettre mensuelle d'information du Hub.

      Cordialement,

      Les admins du Hub
    • By Cliquedur
      Bonjour,

      Je cherche une réponse concernant le choix de réécriture / redirection à faire dans cas d'un site dont tous (6) les noms de domaines ont été "sauvagement" soumis à Google (entre autres).

      Disons que l'adresse principale est www.domaine-principal.com, et que les 5 autres sont :
      www.domaine-2.fr, www.domaine-3.com, www.domaine-4.com, www.domaine-5.com et www.domaine-6.com.

      Tous les noms de domaine du site pointent vers l'adresse principale, pour un hébergement unique.
      Mais il est nécessaire de faire "le ménage", car google présente le site en faisant une rotation des urls avec des classements anarchiques, chose que je n'ai jamais vue encore. L'idée est que seule l'url principale apparaisse au final dans les résultats, et de ne pas perdre le peu de référencement aquis.

      Quelle serait, d'après-vous, la meilleure méthode par .htaccess : redirection permanente ? Réécriture ?

      Dan, tu m'as parlé de gérer tout cela par le .htaccess et des fichiers robots.txt, c'est bien cela ?

      Merci et à bientôt,
    • By Cliquedur
      Bonjour à tous,

      J'ai fait des recherches sur le hub, mais ne pense pas avoir trouvé de réponse correspondant exactement.
      Maintenant, mon cerveau malade me joue souvent des tours sur des évidences

      Voilà : d'un site www.domaine1.com, nous passons à la même version, mais sur un nouveau nom de domaine, www.domaine2.com. Le deuxième adresse devient l'adresse principale à référencer.
      Nous avons le temps de laisser les deux versions en ligne, mais je veux
      - rediriger les visites pour domaine1 vers domaine2
      - transférer le référencement acquis du domaine1 vers le domaine2

      J'ai pensé à la redirection 301, mais Dan ayant signalé que yahoo! n'était pas forcément friand de cette technique, nous pensions laisser les deux versions en ligne, référencer la nouvelle adresse, et faire en sorte que le domaine1 soit désindéxé au profit du 2.
      Maintenant, pas question de laisser deux versions miroirs ... alors quelle est d'après vous la meilleure démarche ?

      Suffirait-il de faire pointer les dns du 1 vers le 2, de mettre une simple redirection ... ? et de placer une redirection 301 sur le 2 (en bloquant l'indexation du domaine1 avec une version alternative du robots.txt ?

      Bref, mon message doit montrer que c'est bien confus dans ma tête

      Bref, je suis un peu perdu

      Merci d'avance pour votre réponse, et bravo pour la qualité du forum.
    • By Webmestre
      Bonjour,
      Je dois mettre en ligne la nouvelle version d'un site. Les nouvelles pages seront placées dans de nouveaux dossiers.
      Afin de ne pas ramener l'interaute sur une erreur 404 au cas ou il cliquerait sur un lien vers une ancienne page à partir d'un moteur de recherche, je pensais mettre dans chacune des ancinennes pages le script ci-dessous et placer un robots.txt interdisant la visite des anciens dossiers. Y-a-t-il d'autres solutions (je pense aux redirection 301 / 302 mais je n'en comprends pas bien le principe) ?
      Le but est à terme de faire disparaitre ces pages des moteurs pour pouvoir ensuite enlever ces dossiers du serveurs.

      <script Language="javascript">
      if (parent.frames.length==0) parent.location.href="default.htm"
      </SCRIPT>
×
×
  • Create New...