Aller au contenu

Classement par thématiques et duplicate content


Sujets conseillés

Je suis en train de développer un site dans lequel je permets à des membres d'écrire des articles.

Pour chaque article, on pourra associer une ou plusieurs thématiques.

Les pages seront de la forme :

utilisateur/titre-de-l-article.html

Pour les thématiques, je pense avoir une page de la forme :

thematique/, pour la page globale, et

utilisateur/thematique/ pour les thématiques liées à cet utilisateur.

Le souci, c'est de savoir comment gérer l'affichage des articles depuis ces dernières pages.

Si je fais une url du type

utilisateur/thematique/titre-de-l-article.html, je suis en duplicate content avec utilisateur/titre-de-l-article.html

Cependant, si je ne le fais pas (et j'atterris quoi qu'il arrive sur la page utilisateur/titre-de-l-article.html), tous mes liens internes perdent la notion de thématique, et je ne peux plus afficher "les autres articles de la thématique".

Je pense me résigner à faire deux pages avec le même contenu, mais y a t'il un réel danger ? Comme les deux pages sont issues de mon site, il ne devrait pas y avoir de souci, non ? Les moteurs de recherche afficheront quoi qu'il arrive une page de mon site.

Lien vers le commentaire
Partager sur d’autres sites

bonjour,

et faire une url utilisateur/theme-titre-de-l-article ?

dans thematique/ tu renvoies les liens sur utilisateur/theme-titre-de-l-article

ce n'est que la présentation des themes, qui renvoient vers chaque utilisateur utilisant tel theme

pas de duplicate...

bon courage ;)

Lien vers le commentaire
Partager sur d’autres sites

Non, parce qu'il peut y avoir plusieurs thèmes par article.

je me retrouve au final avec plusieurs pages :

utilisateur/thematique1/titre.html

utilisateur/thematique2/titre.html

utilisateur/thematique3/titre.html

...

Par contre, je ne veux pas mettre la thématique dans la page principale, parce que d'une part ça augmente énormément la taille de l'url (utilisateur/thematique1-thematique2-thematique3-titre.html), mais surtout je veux pouvoir conserver une url statique qui ne puisse pas bouger, même si l'utilisateur modifie les thématiques.

A ce titre, il vaudrait peut-être interdire l'indexation de ces pages ? Qu'en pensez-vous ?

Lien vers le commentaire
Partager sur d’autres sites

En fait tu as deux types de contenus :

- des thématiques

- des articles.

Donc tu peux avoir deux types d'URL, une pour chaque type de contenu.

Tu as déjà celle pour les thématiques.

Pour les articles (afin d'éviter une duplication de contenu) mets en place :

/articles/nom-article

Sans placer la thématique dans l'URL bien évidemment ;)

Lien vers le commentaire
Partager sur d’autres sites

On en revient à mon premier souci :

Dans cette optique, dans la page thématique je liste les différents articles de la thématique. Mais quand je suis sur la page article, la navigation n'a plus aucun rapport avec la thématique (les liens "article suivant" et "article précédent" ne m'amèneraient pas vers des articles de la même thématique)

Lien vers le commentaire
Partager sur d’autres sites

Hello captain_torche,

Perso, je ne me ferai pas trop de soucis avec ton problème de duplicate content... je sais, je sais que beaucoup en parle au sujet des blogs, écrivent des billets, etc...

Mais GG le dit (si j'ai bien compris.... parfois ma compréhension de l'anglais laisse à désirer :hypocrite: ) :

Duplicate content on a site is not grounds for action on that site unless it appears that the intent of the duplicate content is to be deceptive and manipulate search engine results. If your site suffers from duplicate content issues, and you don't follow the advice listed above, we do a good job of choosing a version of the content to show in our search results.

This type of non-malicious duplication is fairly common, especially since many CMSs don't handle this well by default. So when people say that having this type of duplicate content can affect your site, it's not because you're likely to be penalized; it's simply due to the way that web sites and search engines work.

Most search engines strive for a certain level of variety; they want to show you ten different results on a search results page, not ten different URLs that all have the same content. To this end, Google tries to filter out duplicate documents so that users experience less redundancy. You can find details in this blog post, which states:

1. When we detect duplicate content, such as through variations caused by URL parameters, we group the duplicate URLs into one cluster.

2. We select what we think is the "best" URL to represent the cluster in search results.

3. We then consolidate properties of the URLs in the cluster, such as link popularity, to the representative URL.

Lien vers le commentaire
Partager sur d’autres sites

Malheureusement, Google et le duplicate content c'est un peu la grande imposture...

Je pense qu'il ne faut pas se leurrer avec leur "discours commercial".

Je revote pour le noindex si tu as du contenu identique sur ton site ;)

Lien vers le commentaire
Partager sur d’autres sites

Ton système d'URL me fait penser à celui de Dailymotion, où une vidéo peut avoir comme URL:

  • /video
  • utilisateur/video/
  • search/mots-clés/video
  • /related/video-similaire/video
  • ... plus les différentes combinaisons des trois types d'URL ci-dessus

Et il ne me semble pas qu'il souffre d'un quelquonque problème de référencement, loin de là.

Ceci étant, je ne suis pas du tout expert en référencement, je donnais juste ça en exemple ;)

Lien vers le commentaire
Partager sur d’autres sites

En même temps, je ne vois pas ce qui pourrait réellement poser problème : si une page de mon site est choisie à la place des autres, je ne vois pas ce que j'y perds.

Je n'ai pas connaissance de la taille de ton site, toutefois, à mon avis, un site s'auto-dupliquant dans de grande quantité est pénalisant. Ce problème est assez récurrent notamment avec certains scripts de blog, qui s'autoduplique à merveille : calendrier, archive, listing...

Augmenter son nombre de pages ne contenant pas un contenu original, ne me semble pas être une pratique encouragée par les moteurs.

Je n'ai pas de preuve ou de démonstration algorithmique mais c'est plutôt mon bon sens qui parle.

La solution technique me semble en plus très simple à mettre en place (codé à la volé donc non testé mais l'essentielle est là) :

<?php
function checkUser(){

$_HOST = $_SERVER['HTTP_HOST'];
$_URI = $_HOST. $_SERVER['REQUEST_URI'];

if(ereg("/paramUtilisateur/",$_URI))
{
return true; // meta noindex à insérer
}
return false; // rien à faire
}
?>

Lien vers le commentaire
Partager sur d’autres sites

Salut à tous,

Quand on regarde les blogs Wordpress (entres autres), on a ce "problème", toutefois on voit que :

- Les articles n'ont qu'une seul URI (pas de notion d'utilisateur, ni de themes)

- Les thématiques ont une liste d'articles (avec le même article pouvant être dans plusieurs thèmes) moins fournie que la liste générale

- Les thèmes sont repris dans l'article

En utilisant cette technique, le problème de duplicate est donc évité à partir du moment où tes utilisateurs écrivent dans plusieurs thématiques différentes (puisque seule la liste peut être dupliqué : la page thématique sera forcément moins grande que la page utilisateur.)

Toutefois, ne connaissant pas la nature de ton projet, je me pose la question : Est ce que ce double filtre est utile ? Ne vas tu pas perdre beaucoup de contenu en appliquant ce double filtre alors que tu pourrais faire filtre utilisateur et filtre thématique ?

Modifié par n00by
Lien vers le commentaire
Partager sur d’autres sites

Dans le principe, je souhaite maintenir un espace réellement perso pour chacun : si le site fonctionne bien, certains utilisateurs pourront avoir une centaine d'articles (J'en aurai facilement 300 pour commencer), et je veux que tout soit correctement identifié, d'où le nom de l'utilisateur dans l'url (comme je génère l'url en fonction du titre, ça permet également à plusieurs utilisateurs d'utiliser le même titre).

Pour le souci, je ne parlais pas des listes (pages thématiques et autres), mais bien des pages elles-mêmes. J'étais parti dans l'optique de préciser la thématique dans l'url même de l'article (via un sous-dossier), pour permettre une navigation thématique sur la page de l'article.

Lien vers le commentaire
Partager sur d’autres sites

Hello,

La manière stratégie en terme de visibilité est certainement que tu insères un minimum de contenu original sur ces pages afin d'éviter le duplicate. Il y a certainement moyen en affichant des données dynamiques telles que :

- Nombre de visiteurs

- Nombre de visiteurs en cours

- Liens vers les utilisateurs appartenant à la même thématique

- Date du jour

Etc...

Tu auras ainsi plus de pages indexées et certainement plus de trafic.

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...