Version complète: sur le forum Webmaster Hub : Googlebot indexe des page inutiles
Webmaster Hub > Promotion de Sites Internet > Techniques de Référencement
Cleden
Bonjour,

Je laisse quelques permissions à Google pour qu'il visite mon site en profondeur. Cependant, je remarque qu'il indexe (par centaines) des pages inutiles voire préjudiciables pour mes membres.

Le nom de ces pages est du type:
-www.ouetu.com/index.php?variable=valeur&variable1=valeur1&variable2=valeur2

Existe-t-il une méthode empêchant notre cher googlebot d'indexer ces pages ou, encore, une méthode pour pour qu'il ne suive pas certaines liens ?

D'avance merci wink.gif ,
Loïc.
Cleden
Salut Cleden wacko.gif

J'ai trouvé ceci sur la FAQ de google, ça permet d'empêcher Googlebot de visiter les pages dynamiques (avec variables). Il suffit de l'inclure dans ton robots.txt.
CODE
User-agent: Googlebot
Disallow: /*?

Puisque ton site est rewrité, ça ne devrait pas poser de problèmes, Googlebot continuera à indexer les pages rewritée. Quelqu'un peut confirmer ?

Bonne chance à toi,
Loïc.
Jeff
Salut Cleden,

Si on a lu la même FAQ, je cite GG:

CITATION
Pour interdire l'accès de votre site aux robots-explorateurs, vous pouvez installer sur votre serveur le fichier robots.txt. Ce fichier empêche le robot-explorateur de Google (et tout autre robot ou « spider ») de visiter votre site. Le nom d'agent utilisateur (User-agent) de notre robot est « Googlebot ». Googlebot supporte certaines caractéristiques du standard robots.txt : les filtres d'interdiction/Disallow peuvent inclure le caractère * (toute séquence de caractères), et se terminer par le caractère $ (fin du nom). Exemple – Pour empêcher Googlebot d'explorer les fichiers à extension « gif », insérez l'instruction suivante dans le fichier robots.txt :

      User-agent: Googlebot
      Disallow: /*.gif$


Donc si je comprends bien, cela sert juste à exclure les fichiers en tenant compte de leurs terminaisons; De plus je crois bien qu'il faut terminer dans tous les cas par: $

Je n'ai jamais utilisé un tel paramétrage dans mon fichier "robots.txt" .

Plus de details sur le fichier "robots.txt":
http://www.yooda.com/outils_referencement/robots_txt.php

Jeff, B)
Cleden
Merci pour ta réponse,

Tout en bas de cette FAQ google, il y a:
CITATION
12. Comment dois-je procéder pour demander à Googlebot de ne pas explorer les pages de mon site qui sont générées en mode dynamique ?

Utilisez le fichier robots.txt suivant :

    User-agent: Googlebot
    Disallow: /*?


CITATION
Je n'ai jamais utilisé un tel paramétrage dans mon fichier "robots.txt" .

Moi non plus, toutefois, j'ai une confiance aveugle en tout ce qui est en rapport avec Google biggrin.gif J'essaie cette manière, je vous signalerai si elle fonctionne.

Loïc.
Anonymus
Si tu ne veux pas qu'il indexe ton site, c'est effectivement la meilleure facon. Seulement, il ne va rien indexer du tout !

Si tu ne veux pas qu'il indexe certaines pages, alors il faut placer, dans l'entete de celles ci :
<meta name="robots" content="noindex, nofollow">
Ce qui signifie : ne pas indexer, ne pas suivre.

De manière générale, une page qui explique bien comment s'y prendre pour ce genre de méta, voire la rédaction d'un fichier 'robots.txt', sans exclure l'ensemble du site +>
http://www.toulouse-renaissance.net/c_outi..._robots_txt.htm

A.
Cleden
Ok Anonymus,

J'ai opté pour :
CODE
<?
if ($variable == 'valeur' or $variable1=='valeur1')
{
print '<meta name="robots" content="noindex, nofollow">';
}
?>


Merci pour tes précisions :up: ,
Loïc.
Ceci est une version "bas débit" de notre forum. Pour voir la version complète avec plus d'information, la mise en page et les images, veuillez cliquer ici.