Aller au contenu

Robots index et sid=XXXXXXX


Sujets conseillés

Bonsoir à tous,

Je viens de voir que google a indexé une page de mon forum (en prépa, donc vide) avec une url du type :

www.monsite.com/ forum/forum2.html&sid=991b31c193309dd63630dd002c9a1d15

Il me semblait pourtant qu'il était imossible d'indexer ce type de pages car les sid vont à l'infini :?:

QQun a une idée dessus ?

Modifié par Patotoche65
Lien vers le commentaire
Partager sur d’autres sites

Tiens, de plus en plus étrange .....

Je viens de voir que google à indexé 4 fois la même page du forum et bien sur avec des "sid=" différentes ..... Il est pas rendu le gars la ....

Y a t'il un Bug chez google ?

Les exemples :

Page 2, lien 8.

Page 3, lien 3.

Page 3, lien 4.

Page 3, lien 6.

Le titre (MIKROO-BOOTIK.com :: Voir le Forum - Votre avis nous interresse)

:?::?::?:

Lien vers le commentaire
Partager sur d’autres sites

Pour info, il y a près de 30 000 000 de pages avec sid dans l'url,

et il y a plus de 200 000 000 d'url avec id dans l'url.

Le probleme va se poser lorsqu'il va trouver une page pareil, avec un id différent.

Anonymus.

Lien vers le commentaire
Partager sur d’autres sites

Les algorithmes de détection de "duplicate content" ne fonctionnent pas à la première indexation de la page, mais lors du calcul de PageRank.

La grosse majorité des pages de l'index qui ont un identifiant de session dans l'URL disparaissent à court ou moyen terme (et sont remplacées par d'autres qui disparaîtront à leur tour)

Dan

Lien vers le commentaire
Partager sur d’autres sites

Ok,

Merci, donc si je comprends bien, il ne restera au final que mes url rewritées sans les sid à la fin, et une seule url par lien ....

Je comprends mieux maintenant, merci .

Lien vers le commentaire
Partager sur d’autres sites

Ok,

Merci, donc si je comprends bien, il ne restera au final que mes url rewritées sans les sid à la fin, et une seule url par lien ....

Je comprends mieux maintenant, merci .

Tout a fait, Google fera le ménage.

Mais pour favoriser l'indexation, tu peux aussi ajouter un petit code qui détecte les robots et évite de l'utilisation de sessions dans leur cas. Tu auras une indexaton plus rapide à mon avis.

Exemple de code:

/* Ouverture de session conditionnelle, pas pour les robots identifies  */

// Spider/Bot pour référencement
$spiders = array( "Googlebot", "crawler", "Slurp", "Fast", "ia_archiver", "Scooter", "Robot", "VoilaBot", "W3C", "ZyBorg", "Deepindex", "xecho" );
$from_spider = false;
foreach($spiders as $Val) {
if (eregi($Val, $_SERVER["HTTP_USER_AGENT"])) {
$from_spider = true;
break;
}
}
// Session ini_set("session.use_trans_sid", "0");
if(!$from_spider) {
session_start();
}

Lien vers le commentaire
Partager sur d’autres sites

Yop Dan,

Euuuuhhhhh ...... comment dire ........

Je le mets où ce bout de code (aïe, pas sur la tête, pas peur, pas mal, non pas les dents.....argh :P )

Ps1 : j'utilise phpbb

Ps2 : Je suis nul mais j'essaye de me soigner :D

Lien vers le commentaire
Partager sur d’autres sites

  • 2 semaines plus tard...

Salut à tous,

Bon, le site est quasiment terminé ... plus que les produits à mettre dedans :D

Je me tourne maintenant vers mon forum.

Il est actuellement vide mais je pense à son indexation.

Dan m'a filer un bout de code à insérer pour facilité la lecture des pages par les robots .... QQun sait ce que je dois en faire ???? je le met où le truc ????

Merci d'avance pour vos réponses

Lien vers le commentaire
Partager sur d’autres sites

J'ai fait les modifications sur le fichier includes/sessions.php dans la fonction append_sid (en fin de fichier) en utilisant le morceau de code dan.

Je suis sur une version 2.0.8 de Phpbb (en anglais)

PS: Si quelqu'un pouvait completer la liste des spiders ;-)

function append_sid($url, $non_html_amp = false)

{

global $SID;

$spiders = array( "Googlebot", "crawler", "Slurp", "Fast", "ia_archiver", "Scooter", "Robot", "VoilaBot", "W3C", "ZyBorg", "D*****", "xecho" );

$from_spider = false;

foreach($spiders as $Val) {

    if (eregi($Val, $_SERVER["HTTP_USER_AGENT"])) { 

  $from_spider = true;

     break;

  }

}

if ( !empty($SID) && !preg_match('#sid=#', $url) && !$from_spider)

{

  $url .= ( ( strpos($url, '?') != false ) ?  ( ( $non_html_amp ) ? '&' : '&' ) : '?' ) . $SID;

}

return $url;

}

J'ai testé sur http://www.webconfs.com/search-engine-spider-simulator.php et ça fonctionne.

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...