Dudu
mardi 17 janvier 2006 à 21:24
Hello,
je vais expliciter mon message point par point pour plus de clarté ^_^
CITATION
pour les moteurs de recherche "www.site.tld/traditions/index.html" est une URL différente de "www.site.tld/traditions/"
Pour un moteur de recherche, chaque URL différente correspond à une page différente.
Donc si une seule et même page est référencée sous plusieurs adresses, le moteur de recherche va considérer que tu as plusieurs fois la même page.
Donc "www.site.tld/traditions/index.html" est, pour le moteur de recherche,
une page différente de "www.site.tld/traditions/"
CITATION
alors qu'il peut très bien s'agir de la même page en réalité:
Apache, dans sa configuration par défaut, ouvre l'éventuel fichier "index.html" lorsqu'on lui demande un répertoire sans préciser le fichier.
=> Donc "www.site.tld/traditions/index.html" est, pour Apache,
la même page que "www.site.tld/traditions/"
CITATION
c'est un cas fréquent de duplicate content.
Récapitulons:
- "www.site.tld/traditions/index.html" est, pour le moteur de recherche,
une page différente de "www.site.tld/traditions/"
- "www.site.tld/traditions/index.html" est, pour Apache,
la même page que "www.site.tld/traditions/"
Il y a clairement un souci: pour l'un c'est la même page; et pour l'autre çà ne l'est pas ce sont 2 page différentes.
D'où une éventuelle pénalité pour contenu similaire (
duplicate content) qui n'est pas méritée: c'est un problème que rencontrent beaucoup de webmasters.
CITATION
Il en va de même pour les URL avec ou sans les www.
Même problème que ci-dessus, mais exemple différent (autre possibilité de contenu similaire immérité):
"www.site.tld/page.html" <=> "site.tld/page.html"
Pour Apache, il s'agit (souvent) de la même page. Pour les moteurs de recherche, ce sont 2 pages distinctes.
Que faire ?
- éviter de nommer explicitement ses fichiers et ne donner que l'URL d'un répertoire sans mention du fichier par défaut
- ne pas faire de liens internes sans les www si tu souhaites garder le préfixe www (et vice-versa: ne pas faire de liens avec les www si tu ne souhaites pas garder le préfixe www)
- rediriger le trafic sans www vers www avec .htaccess (si l'hébergeur permet cette possibilité)
- rediriger le trafic de "www.site.tld/dossier/index.php" vers "www.site.tld/dossier/" (n'est pas possible en HTML, exige un langage de programmation tel que PHP ou JSP ou encore ASP et beaucoup d'autres).
**
nota bene:
- à chaque fois que je parle de redirection dans ce message, il s'agit de redirection 301. Il existe aussi un autre code de redirection (le 302) mais là encore on se frotte à un autre bug des moteurs de recherche et on risque une désidexation de la page
- Apache ouvre par défaut un éventuel fichier "index.html" pour les répertoires, mais il faut noter que IIS ouvre un éventuel fichier "default.html". Toujours bon à savoir pour s'éviter de mauvaises surprises lors d'un changement de configuration
