Version complète: sur le forum Webmaster Hub : Page dynamiques et google
Webmaster Hub > Création et exploitation de Sites Internet > Les langages du Net > Fichier .htaccess et réécriture d'URLs
yankey
Bonjour, smile.gif

Je planche toujours sur l'url rewriting et le fichier robots.txt.
J'ai suivi les conseils de Google pour interdire l'indexation des urls rewritées.
User-agent: Googlebot
Disallow: /*?

Il semble maintenant que l'accès soit impossible pour toutes les urls contenant un ?, même celles qui ne sont pas issues de mon site !? ce qui est carrément génant. J'ai donc renlevé le bout de code.

J'avais d'abord mis un code du type:
User-agent: *
Disallow:/page.php3
pour lui interdire l'accés à touts les pages de type: page.php3?valeur=$valeur
mais j'ai mis ce code là il y a des mois et les pages sont toujours présentes dans l'index.

Alors, est-ce quelqu'un sait si je peux retourner le code de Google et faire un mix cette façon:

User-agent: *
Disallow:/page.php3*

est-ce que vous pensez que ce code va marcher?
et est-ce qu'il va vraiment interdire l'indexation des pages de type: page.php3?valeur=$valeur

Merci wink.gif
Jeanluc
CITATION(yankey @ mardi 17 octobre 2006, 19h15) *
Bonjour, smile.gif
Bonjour. wink.gif

CITATION(yankey @ mardi 17 octobre 2006, 19h15) *
J'ai suivi les conseils de Google pour interdire l'indexation des urls rewritées.
User-agent: Googlebot
Disallow: /*?
C'est recommandé par Google, mais ce n'est pas standard. Ce code sera donc uniquement compris par Google.

CITATION(yankey @ mardi 17 octobre 2006, 19h15) *
Il semble maintenant que l'accès soit impossible pour toutes les urls contenant un ?, même celles qui ne sont pas issues de mon site !?
Là, je ne comprends pas ce que tu veux dire. Le robots.txt n'a aucun effet sur les URL des autres sites.

CITATION(yankey @ mardi 17 octobre 2006, 19h15) *
J'avais d'abord mis un code du type:
User-agent: *
Disallow:/page.php3
pour lui interdire l'accés à touts les pages de type: page.php3?valeur=$valeur
Ce code est correct. Il est conforme au standard et interdit bien aux robots de visiter les pages de type /page.php3?valeur=$valeur

CITATION(yankey @ mardi 17 octobre 2006, 19h15) *
mais j'ai mis ce code là il y a des mois et les pages sont toujours présentes dans l'index.
En théorie, ce n'est pas parce que Google ne peut plus visiter une page qu'il doit obligatoirement l'enlever de son index. En pratique, la page non visitée ne sortira probablement plus très souvent dans les résultats de recherche, mais on ne sait jamais...

CITATION(yankey @ mardi 17 octobre 2006, 19h15) *
User-agent: *
Disallow:/page.php3*

est-ce que vous pensez que ce code va marcher?
Ce code n'est pas standard et, même avec Google, il ne marchera pas mieux que le code standard que tu utilises actuellement.

CITATION(yankey @ mardi 17 octobre 2006, 19h15) *
et est-ce qu'il va vraiment interdire l'indexation des pages de type: page.php3?valeur=$valeur
Si la méthode du robots.txt ne donne pas des résultats satisfaisants, il reste :
- l'outil Google de désindexation forcée des pages (attention, bien tout lire avant d'utiiser cet outil dangereux)
- la possibilité de mettre des "nofollow" sur tous les liens pointant vers ces pages
- la possibilité de mettre, dans ces pages, une ligne <meta name="robots" content="noindex,nofollow">

Ce serait utile que tu donnes l'URL de ton site pour qu'on puisse vérifier que ton robots.txt est accessible et sans mauvaise surprise.

Jean-Luc
yankey
Ben... l'url is in my signature... tongue.gif
Sinon, en fait, oui, j'en oublie la moitié en route...
Je dis que les pages contenant un ? des autres sites ne sont plus indexés parce que j'ai testé un outil... que je n'arrive même pas à retrouver pour l'instant et ce module me dit que le lien vers la validation de ma page au w3c, tout en bas, est interdite par le robots.txt, et c'est bien la seule qui contient un
CODE
?
... unsure.gif
C'est pas clair cette histoire, est-on certains que Google prendra en compte les url extérieures avec ce code exotique qui ne s'applique qu'à lui:
CODE
User-agent: Googlebot
Disallow: /*?

???
et si Google accepte cette écriture exotique, est-on certain qu'il n'accepterai pas un truc du genre:

CODE
User-agent: Googlebot
Disallow: /page.php3?*

???

en tous cas je ne me risque pas à faire supprimer des pages de l'index, et pas de nofollow sur ces pages sinon où est l'intérêt du rewriting smile.gif
Jeanluc
CITATION(yankey @ mardi 17 octobre 2006, 20h33) *
Ben... l'url is in my signature... tongue.gif
Il faudrait commencer par remplacer tous les
CODE
Disallow:/machin.php3
par des
CODE
Disallow: /machin.php3
(avec un espace). smartass.gif

Je ne comprends toujours pas cette histoire d'URL extérieures. Pourrais-tu donner un exemple ?

Jean-Luc
yankey
merci prof pour la syntaxe... blush.gif

pour l'exemple il faut que je retrouve le site... un validateur intéressant atteind au bout de 150 clics... que j'ai testé que j'ai fermé et que je ne retrouverai pas de suite... whistling.gif

bref, dans le tas, un m'a dit: cette url est interdite d'accès par le robots.txt
et le lien, c'est celui-ci:

http://validator.w3.org/check?uri=http%3A%...-gratuit.com%2F

qui est effectivement le seul sur la page index à contenir un ? , ce n'est pas un lien interne, mais je préfèrerai l'avoir sur ma page et que celui-ci soit indexé normalement.
dans le doute, vais laisser comme ça, avec tes corrections smile.gif , sans le code spécial Google.
Ceci est une version "bas débit" de notre forum. Pour voir la version complète avec plus d'information, la mise en page et les images, veuillez cliquer ici.