Version complète: sur le forum Webmaster Hub : Robots index et sid=XXXXXXX
Webmaster Hub > Promotion de Sites Internet > Techniques de Référencement
Patotoche65
Bonsoir à tous,

Je viens de voir que google a indexé une page de mon forum (en prépa, donc vide) avec une url du type :
CITATION
www.monsite.com/ forum/forum2.html&sid=991b31c193309dd63630dd002c9a1d15

Il me semblait pourtant qu'il était imossible d'indexer ce type de pages car les sid vont à l'infini r_question6161.gif

QQun a une idée dessus ?
hervelaf
Bonjour,

La page est présente dans l'index de Google, ou tu as simple vu grâce à robotstats que google avait "lu" la page ?
Patotoche65
Slaut,

La page est bien présente dans l'index de google : regarde le 4èmè lien ???

voilou
hervelaf
Effectivement étrange.
Patotoche65
Re,

Sans en tirer de conclusions attives, est ce que qqun a observé ceci r_question6161.gif
Patotoche65
Tiens, de plus en plus étrange .....

Je viens de voir que google à indexé 4 fois la même page du forum et bien sur avec des "sid=" différentes ..... Il est pas rendu le gars la ....

Y a t'il un Bug chez google ?

Les exemples :

Page 2, lien 8.
Page 3, lien 3.
Page 3, lien 4.
Page 3, lien 6.

Le titre (MIKROO-BOOTIK.com :: Voir le Forum - Votre avis nous interresse)

r_question6161.gif r_question6161.gif r_question6161.gif
Anonymus
Pour info, il y a près de 30 000 000 de pages avec sid dans l'url,
et il y a plus de 200 000 000 d'url avec id dans l'url.

Le probleme va se poser lorsqu'il va trouver une page pareil, avec un id différent.

Anonymus.
Patotoche65
Salut Anonymus,

C'est bien ce que je dis, la page est identique mais le sid est différent blink.gif
Dan
Les algorithmes de détection de "duplicate content" ne fonctionnent pas à la première indexation de la page, mais lors du calcul de PageRank.

La grosse majorité des pages de l'index qui ont un identifiant de session dans l'URL disparaissent à court ou moyen terme (et sont remplacées par d'autres qui disparaîtront à leur tour)

Dan
Patotoche65
Ok,

Merci, donc si je comprends bien, il ne restera au final que mes url rewritées sans les sid à la fin, et une seule url par lien ....

Je comprends mieux maintenant, merci .
Dan
CITATION(Patotoche65 @ jeudi 10 juin 2004, 18:54)
Ok,

Merci, donc si je comprends bien, il ne restera au final que mes url rewritées sans les sid à la fin, et une seule url par lien ....

Je comprends mieux maintenant, merci .

Tout a fait, Google fera le ménage.
Mais pour favoriser l'indexation, tu peux aussi ajouter un petit code qui détecte les robots et évite de l'utilisation de sessions dans leur cas. Tu auras une indexaton plus rapide à mon avis.

Exemple de code:
CODE
/* Ouverture de session conditionnelle, pas pour les robots identifies  */

// Spider/Bot pour référencement
$spiders = array( "Googlebot", "crawler", "Slurp", "Fast", "ia_archiver", "Scooter", "Robot", "VoilaBot", "W3C", "ZyBorg", "Deepindex", "xecho" );
$from_spider = false;
foreach($spiders as $Val) {
    if (eregi($Val, $_SERVER["HTTP_USER_AGENT"])) {  
        $from_spider = true;
    break;
    }
}
// Session ini_set("session.use_trans_sid", "0");
if(!$from_spider) {
    session_start();
}
Patotoche65
Yop Dan,

Euuuuhhhhh ...... comment dire ........

Je le mets où ce bout de code (aïe, pas sur la tête, pas peur, pas mal, non pas les dents.....argh tongue.gif )

Ps1 : j'utilise phpbb
Ps2 : Je suis nul mais j'essaye de me soigner biggrin.gif
Patotoche65
Salut à tous,

Bon, le site est quasiment terminé ... plus que les produits à mettre dedans biggrin.gif

Je me tourne maintenant vers mon forum.
Il est actuellement vide mais je pense à son indexation.

Dan m'a filer un bout de code à insérer pour facilité la lecture des pages par les robots .... QQun sait ce que je dois en faire ???? je le met où le truc ????

Merci d'avance pour vos réponses
MonsieurArthur
J'imagine que tu dois le mettre dans le head.php de ton forum. à l'endroit ou tu veux (sans tronquer un autre code) entre les balise <?php et ?>
Nicolas
J'ai fait les modifications sur le fichier includes/sessions.php dans la fonction append_sid (en fin de fichier) en utilisant le morceau de code dan.

Je suis sur une version 2.0.8 de Phpbb (en anglais)

PS: Si quelqu'un pouvait completer la liste des spiders ;-)

CITATION
function append_sid($url, $non_html_amp = false)
{
global $SID;

$spiders = array( "Googlebot", "crawler", "Slurp", "Fast", "ia_archiver", "Scooter", "Robot", "VoilaBot", "W3C", "ZyBorg", "D*****", "xecho" );
$from_spider = false;
foreach($spiders as $Val) {
    if (eregi($Val, $_SERVER["HTTP_USER_AGENT"])) { 
  $from_spider = true;
     break;
  }
}

if ( !empty($SID) && !preg_match('#sid=#', $url) && !$from_spider)
{
  $url .= ( ( strpos($url, '?') != false ) ?  ( ( $non_html_amp ) ? '&' : '&amp;' ) : '?' ) . $SID;
}

return $url;
}


J'ai testé sur http://www.webconfs.com/search-engine-spider-simulator.php et ça fonctionne.
Ceci est une version "bas débit" de notre forum. Pour voir la version complète avec plus d'information, la mise en page et les images, veuillez cliquer ici.