Jeanluc
mardi 17 octobre 2006 à 19:00
CITATION(yankey @ mardi 17 octobre 2006, 19h15)

Bonjour,

Bonjour.
CITATION(yankey @ mardi 17 octobre 2006, 19h15)

J'ai suivi les conseils de Google pour interdire l'indexation des urls rewritées.
User-agent: Googlebot
Disallow: /*?
C'est recommandé par Google, mais ce n'est pas standard. Ce code sera donc uniquement compris par Google.
CITATION(yankey @ mardi 17 octobre 2006, 19h15)

Il semble maintenant que l'accès soit impossible pour toutes les urls contenant un ?, même celles qui ne sont pas issues de mon site !?
Là, je ne comprends pas ce que tu veux dire. Le
robots.txt n'a aucun effet sur les URL des autres sites.
CITATION(yankey @ mardi 17 octobre 2006, 19h15)

J'avais d'abord mis un code du type:
User-agent: *
Disallow:/page.php3
pour lui interdire l'accés à touts les pages de type: page.php3?valeur=$valeur
Ce code est correct. Il est conforme au standard et interdit bien aux robots de visiter les pages de type
/page.php3?valeur=$valeurCITATION(yankey @ mardi 17 octobre 2006, 19h15)

mais j'ai mis ce code là il y a des mois et les pages sont toujours présentes dans l'index.
En théorie, ce n'est pas parce que Google ne peut plus visiter une page qu'il doit obligatoirement l'enlever de son index. En pratique, la page non visitée ne sortira probablement plus très souvent dans les résultats de recherche, mais on ne sait jamais...
CITATION(yankey @ mardi 17 octobre 2006, 19h15)

User-agent: *
Disallow:/page.php3*
est-ce que vous pensez que ce code va marcher?
Ce code n'est pas standard et, même avec Google, il ne marchera pas mieux que le code standard que tu utilises actuellement.
CITATION(yankey @ mardi 17 octobre 2006, 19h15)

et est-ce qu'il va vraiment interdire l'indexation des pages de type: page.php3?valeur=$valeur
Si la méthode du
robots.txt ne donne pas des résultats satisfaisants, il reste :
- l'outil Google de désindexation forcée des pages (attention, bien tout lire avant d'utiiser cet outil dangereux)
- la possibilité de mettre des "nofollow" sur tous les liens pointant vers ces pages
- la possibilité de mettre, dans ces pages, une ligne
<meta name="robots" content="noindex,nofollow">Ce serait utile que tu donnes l'URL de ton site pour qu'on puisse vérifier que ton
robots.txt est accessible et sans mauvaise surprise.
Jean-Luc