Version complète: sur le forum Webmaster Hub : Générateur automatique de contenu, pour webmaster.
Webmaster Hub > Accueil > Le salon de Webmaster Hub
gastonB
Salut tout le monde,

Je viens de finir de développer un script PHP, pour générer du contenu à volonté sur la bases de multiples flux RSS que l’on choisi.
Je suis plutôt content de moi et je me demande même si je ne viens pas de créer un truc qui va foutre la m... chez les référenceurs...
Bref, j’ai mis tout ça en GPL et votre avis est grandement bienvenu.

En fait, je me demande si Google reconnaît le contenu des RSS et le référence ?

J’aurai voulu savoir si le contenu des flux affiché sur ma page pourrait m’amener des pénalités ?

J’espère que j’ai réussi à m’exprimer correctement.
Merci

P.S : Le script est sur le site de mon profil.
captain_torche
Je ne pense pas que tu puisses "foutre la m..." où que ce soit avec un script comme ça laugh.gif
Cependant, il existe de nombreux soucis à l'aggrégation de RSS, techniques et juridiques :
- Comme il s'agit de flux RSS ouverts, nombre de sites possèdent les mêmes textes. Pour remonter dans les moteurs, on a déjà vu mieux (Le risque de duplicate content est énorme).
- Comme l'a récemment démontré la justice française, le fait de choisir un flux RSS pour l'afficher sur ton site, est un choix éditorial. Si un des messages porte préjudice à quelqu'un (fréquemment dans les flux people), tu est considéré comme responsable, et tu es donc attaquable.
- Pour finir, un site composé uniquement d'agrégats de flux RSS, n'apporte en général strictement rien à l'internaute, il y a fort peu de chances de recevoir du backlink.

En conclusion, tu ne risques pas de remonter très haut dans les moteurs, malheureusement. Pour l'instant, rien n'a remplacé le contenu unique pour booster un site wink.gif
Occi
+1

Plusieurs centaines de sites font déjà cela et Google et les autres semblent détecter (heureusement) les Flux RSS (même si stocké en BDD). Heureusement que les moteurs ne se laissent pas gruger sinon ça serait la fin des résultats pertinent dans les SERP, rien que du contenu identique.

Le truc est de savoir si les moteurs de recherche considèrent ceci comme du "duplicate content" donc pénalité sur le référencement ou si ils détectent que c'est du contenu en provenance d'un Flux RSS donc ignore tout simplement.
J'obte dans un premier temps pour la réponse "duplicate content" car il n y a aucun moyen de reconnaître un contenu dupliqué d'un contenu par Flux RSS, au final ça revient au même puisque le contenu est dupliqué et n'a que très peu d'intérêt pour l'Internaute. Après "peut être" qu'à force d'indéxer le même contenu pris sur plusieurs sites, les moteurs considèrent ceci comme un Flux... Impossible à savoir.

CITATION
Je suis plutôt content de moi et je me demande même si je ne viens pas de créer un truc qui va foutre la m... chez les référenceurs...

Une mauvaise gestion du contenu syndiqué et c'est dans ta vie juridique que ça va "foutre la m..." pas chez les référenceurs biggrin.gif
Les procès contre du contenu syndiqué c'est à la mode en ce moment et plusieurs se sont ramassés (abusivement je trouve, certains procès n'étaient pas justifiés).
Des gros et des petits ont subis des conséquences lourdes dont en quelques mois Wikio, Fuzz, pressecitron, ...
KaRaK
Hello,

Je ne suis pas tout à fait d'accord avec mes collègues smile.gif
Google a un vrai problème avec la duplication de contenu et a vraiment du mal à faire la distinction entre la source et la copie.

Je peux te donner par MP le nom d'un service de ce type qui se positionne fréquemment devant les sources.
Bref, je considère dans la plupart des cas, ce type de service comme une vraie plaie tant que google ne sera pas mieux armé...
captain_torche
Je pense savoir de quel site tu parles laugh.gif
Mais on parle là d'un site en particulier (une véritable plaie, soit dit en passant).
Mais pour tous les flux qui ressortent sur ce site, combien d'autres sites avec le même contenu se retrouvent en duplicate ?
Occi
Je crois savoir aussi de quel site il parle whistling.gif

Si c'est le même site faut savoir qu'avant de faire de l'agrégation de masse, ce site était très bien positionné et d'ailleurs il a plusieurs milliers de backlinks donc forcément ça aide.



Edit : quel boulet j'ai marqué de l'agression au lieu de l'agrégation, c'est corrigé.
karnabal
CITATION
Google a un vrai problème avec la duplication de contenu et a vraiment du mal à faire la distinction entre la source et la copie.

Oui, et il n'est toutefois pas dit qu'il cherche à établir une distinction entre source et copie. Il se contente de privilégier le contenu qui se trouve sur la page la plus optimisée pour la requête.
El-Cherubin
c'est quoi le site en question qui passe devant les sites au contenu original....?
Arlette
CITATION(El-Cherubin @ samedi 7 juin 2008 à 13:38) *
c'est quoi le site en question qui passe devant les sites au contenu original....?

Si personne ne le dit c'est que :

- Ici on ne montre pas du doigt
- Que cela n'a aucun intérêt pour la conversation
thick
Je ne suis pas du tout d'accord avec les accusations concernant le "site en question".
La vaste majorité des bloggueurs n'ont absolument aucune idée des tenants et aboutissements du référencement. D'ailleurs, ils s'en fichent complètement et ils ont bien raison. Que veut un bloggueur auteur d'un "blog en question" ? Etre lu ! Peu importe si ça passe par un "site en question" qui a la possibilité de se positionner bien mieux que le pauvre "blog en question" auquel je donne 0% chance de visibilité.

Le "site en question" est tout à fait réactif pour sortir de sa base ceux qui ne souhaitent pas y figurer. Je ne vois pas du tout où est le problème. Ceux qui ne veulent pas ou ne savent pas comment populariser leur blog disposent d'un espace de visibilité indéniable et puissant. Tout le monde ne cherche pas à faire du trafic pour convertir en clics Adsense. Certaines personnes veulent simplement être lues et pour cela le "site en question" propose une alternative viable au référencement.

Ceux qui critiquent ce service sont majoritairement des webmasters jaloux de n'avoir pas entre les mains une telle machine de guerre. Sauf que je vois ce service d'une toute autre manière qu'un autre scraper plus ancien qui ne demande pas forcément l'avis des inscrits et procure 0 visibilité à ces derniers.
Régis
Effectivement le SEQ [comprendre Site En Question] est devenu très réactif, et N.XXX donne facilement des explications claires et rapides et semble sympathique...

Je suis OK que le SEQ est utile pour les bloggueurs qui se fichent du ref... et qu'il donne une visibilité que ces blogs ne pourraient pas avoir... par contre, je pense que ces bloggueurs souhaitent que leur blog soit connu et pas seulement que leur billet soit lu... Or, la plupart du temps, les billets du SEQ sont dans leur intégralité ne favorisant, probablement, pas ainsi la visite du blog éditeur (même s'il y a "voir l'article original").
Ceci dit, c'est une impression : je n'ai aucune idée du % de visite engendrée par le SEQ...
Perso, je me suis désabonné alors qu'il était encore en version béta ayant constaté aucun retour vers mon blog...
thick
C'est un faux problème puisque les bloggueurs qui souhaitent que leur blog soit connu ne doivent pas s'inscrire.
Puis faut pas pousser non plus, SEQ n'est pas indétrônable. Celui qui popularise suffisamment son blog doit lui passer devant. Il est tout à fait possible de profiter de la visibilité offerte par SEQ dans un premier temps, puis au fur et à mesure que le blog original prend une dimension plus populaire, il deviendra la référence.
De plus, si un blog tient tellement que ça à être reconnu, il faut qu'il mette en place une stratégie plus viable que racoler les visiteurs via les résultats de recherche. Etre reconnu implique que les visiteurs viennent directement, via des canaux externes aux moteurs. De ce fait, SEQ n'est pas du tout en concurrence avec un jeune blog inscrit qui souhaite devenir reconnu par la suite. Bien au contraire, il procure une visibilité impossible autrement et peut-être va t'il contribuer à permettre des bookmark, abonnements RSS et autres marques de reconnaissances.
Pour finir, je peux témoigner qu'un blog qui commence à être un peu reconnu se trouve très facilement. Tout simplement, les internautes tapent le NDD dans le champ de recherche Google. Ils ne vont pas rechercher les pages internes. De ce fait, SEQ ne gène en rien ce schéma.
Régis
CITATION(thick @ samedi 7 juin 2008 à 17:54) *
Tout simplement, les internautes tapent le NDD dans le champ de recherche Google.
D'où l'intérêt d'avoir un NDD facilement mémorisable... comme A-10-6 smartass.gif ...
Arlette
CITATION(Régis @ samedi 7 juin 2008 à 15:41) *
Effectivement le SEQ [comprendre Site En Question]

CITATION(Régis @ samedi 7 juin 2008 à 18:50) *
D'où l'intérêt d'avoir un NDD facilement mémorisable... comme A-10-6 smartass.gif ...

a_thumbsup_20.gif En forme Régis ! Pour SEQ... tu aurais pu dire "Voldemor" (Celui dont on doit pas dire le nom) tongue.gif ... Mais Adicie ! Chapeau !

A croire que Thick me connait bien... Je fais partie de ceux qui tape le nom dans la case recherche de Google... Ca va plus vite que mettre l'URL... (Oui, je sais, j'ai l'option favori... Mais après ça fait trop d'image dans ma barre d'état blush.gif )
El-Cherubin
CITATION(Arlette @ samedi 7 juin 2008 à 13:45) *
Si personne ne le dit c'est que :

- Ici on ne montre pas du doigt
- Que cela n'a aucun intérêt pour la conversation



Je ne demande pas a ce qu'on fasse un pilori, simplement un renseignement.
Et ca pouvait avoir de l'intérêt pour d'autres, comme moi, afin d'étudier le site en question et apprendre justement quelques trucs sur le référencement, s'il se positionne bien, c'est pas par l'opération du saint esprit, donc c'est utile d'analyser et comprendre ce site.

Mais je suppose que la curiosité des uns n'est pas celle des autres, donc on écrase et on zappe...


Bonne soirée smile.gif
KaRaK
Hello,

Le débat à malheureusement dérivé sur le SEQ, je n'aurai pas du en parler smile.gif

Les questionq étaient :

CITATION(gastonB @ vendredi 6 juin 2008 à 15:42) *
En fait, je me demande si Google reconnaît le contenu des RSS et le référence ?

J’aurai voulu savoir si le contenu des flux affiché sur ma page pourrait m’amener des pénalités ?


Je n'avais pas répondu à la seconde. Il est apparu que Google pénalise des sites pour des extraits de Wikipédia repris sur leurs pages !

Amha un site qui n'est constitué que de 100% de contenu repris brut de forme , sans autre contenu et valeur ajoutée, court une risque à long terme. Bien entendu, en utilisant des flux de manière intelligente (seo parlant) et avec de la popularité, il est possible de faire pas mal de choses...

Pour en revenir au SEQ, je vous invite à lire attentivement les CGU.

Enfin, thick, en ce qui me concerne cela est tout sauf de la jalousie. J'ai toujours eu une réel admiration pour toutes les personnes mettant en place un projet et arrivant de surcroit à le monétiser... à partir du moment où ils se tiennent éloignés de mon contenu biggrin.gif Mon intervention initiale n'était pas une critique mais avant tout une illustration de contenus non originaux positionnés devant la source.

D'ailleurs, je pense avoir un autre exemple, qui arrive même à se placer devant de vieux sites plutôt optimisés smile.gif

Bref, espérons que google (ou un autre) change cela rapidement.
Arlette
CITATION(El-Cherubin @ samedi 7 juin 2008 à 20:58) *
Je ne demande pas a ce qu'on fasse un pilori, simplement un renseignement.
Et ca pouvait avoir de l'intérêt pour d'autres, comme moi, afin d'étudier le site en question et apprendre justement quelques trucs sur le référencement, s'il se positionne bien, c'est pas par l'opération du saint esprit, donc c'est utile d'analyser et comprendre ce site.

Mais je suppose que la curiosité des uns n'est pas celle des autres, donc on écrase et on zappe...


Bonne soirée smile.gif

La dernière phrase est de trop ! mad2.gif Merci de respecter un peu plus ceux qui prennent de leur temps pour te répondre.

Le départ sur la conversation de "SEQ" (trop marrant l'expression de Régis, je m'en re-servirais) c'est pour montrer du doigt, histoire de dire : "Ou, le vilain ce qu'il fait"... Donc, non merci ! Si c'est pour partir en déballage public et que chacun y aille de son "montrage de doigt"... Pas ici.

Que cela ne te convienne pas, c'est un fait... Tu avais tout le loisir de contacter un membre par MP pour lui demander le nom du site, si tu souhaitais améliorer ton expertise en référencement ! hypocrite.gif
thick
CITATION(KaRaK @ samedi 7 juin 2008 à 21:08) *
Enfin, thick, en ce qui me concerne cela est tout sauf de la jalousie.

Je ne pensais pas du tout à toi en disant cela, mais plutôt aux "petits" scrapers qui ont jadis critiqué d'autres scrapers plus gros qu'eux tout simplement parce qu'ils n'ont jamais réussi à en faire autant.
Régis
CITATION(thick @ samedi 7 juin 2008 à 23:51) *
(...) "petits" scrapers (...)

Pour info et pour les internautes ne connaissant pas le terme "scraper", en voici une définition en anglais (facilement compréhensible) : http://en.wikipedia.org/wiki/Scraper_site et une autre en français moins pertinente bien que... http://fr.wikipedia.org/wiki/D%C3%A9capeuse nonono.gif
BonBackLink
Je veux bien l'url du seq en message privé wink.gif

merci.
El-Cherubin
Pourrais tu partager ton script, car je recherche un truc similaire a adapter pour un forum phpbb3, donc ca pourrait me faire une base.

Merci.
Régis
Bonjour El-Cherubin
CITATION(El-Cherubin @ lundi 9 juin 2008 à 00:18) *
(...) Pourrais tu partager ton script (...)
C'est précisément ce que propose clairement gastonB :
CITATION(gastonB @ vendredi 6 juin 2008 à 15:42) *
(...) P.S : Le script est sur le site de mon profil. (...)
Il suffit donc simplement de cliquer sur son pseudo puis sur son profil puis sur son site...
Bigb06
Perso j'ai fait des flux RSS personnalisés avec l'excellent Yahoo! Pipes et je dois dire que google apprécie ce petit plus pour deux raisons :
- Au lieu que la page soit assez statique, elle est quotidiennement mise à jour avec des nouvelles infos.
- Les actus et infos affichées sont TRES ciblées et correspondent exactement à ce que cherchent les visiteurs, ou ce qu'il serait susceptible de les interresser.

Par contre on est bien d'accord que ce n'est pas le contenu principal de la page, c'est un gros plus pour une page dont le contenu est assez statique.
alex blog
Sans dénoncer il y a de nombreux sites de flux qui se positionnent correctement sur de nombreux mots-clefs.

Il n'y a pas que SEQ/Voldemor dont je ne comprends pas pourquoi on le nomme d'ailleurs pas. Puisque ce qu'il fait n'est pas condamnable, c'est juste très énervant de le voir sans arrêt dans Google biggrin.gif

Pour le script, je vais le tester, cela peut être sympa, même en utilisation personnelle.

KaRaK
Google vient (comme par hasard) de publier un billet qui parle des scrapers et de la duplication de contenu.

http://googlewebmastercentral.blogspot.com...o-scrapers.html
alex blog
_AT_Aurélien : Oui tiens amusant.

_AT_Gaston : C'est un peu la zone ton script.

Notamment au niveau des CSS.

Par ailleurs, dans tes templates, je n'ai pas compris comment on pouvait obtenir des indices de boucles ($i++), pour faire par exemple des couleurs pair/impair.
thick
J'ai un peu lu entre les lignes le billet du blog Google, et j'en retire tout de même un gros bémol.
Apparemment, il suffit que le flux de syndication propose un lien de retour vers la source originale afin de palier à d'éventuels problèmes.
Ce n'est pas du tout ce que j'observe sur les résultats de recherche.
La source originale peut tout à fait être devancée, malgré un lien en dur vers la page originelle.
Arlette
CITATION(alex blog @ lundi 9 juin 2008 à 12:08) *
Il n'y a pas que SEQ/Voldemor dont je ne comprends pas pourquoi on le nomme d'ailleurs pas.

Tout simplement pour éviter (ce que j'ai déjà dit plus haut wink.gif ) un "montrage de doigt en règle".

Cela peut paraître transparent pour les membres, mais ils nous arrivent parfois d'être contacté par un webmaster qui estime être "montré du doigt", et pour éviter tout conflit (même si on pourrait tout a fait se défendre) on préfère éditer les posts.

Donc, dans la mesure ou cela n'est pas nécessaire à la conversation, on va éviter de dire le nom de "SEQ", d'autant que Karak a proposé de communiquer le nom par MP. Evitons de donner du grain à moudre à tous les webmasters qui se sentent floué par ce site parce qu'il arrive en premier sur leurs requêtes, et qui verraient l'occasion de venir se défouler sur le post en disant : "Oh ! c'est un malhonnête".

On a assez de posts à surveiller, sans en plus se créer du travail de modération supplémentaire sad.gif
gastonB
CITATION(alex blog @ lundi 9 juin 2008 à 11:08) *
Sans dénoncer il y a de nombreux sites de flux qui se positionnent correctement sur de nombreux mots-clefs.

Il n'y a pas que SEQ/Voldemor dont je ne comprends pas pourquoi on le nomme d'ailleurs pas. Puisque ce qu'il fait n'est pas condamnable, c'est juste très énervant de le voir sans arrêt dans Google biggrin.gif

Pour le script, je vais le tester, cela peut être sympa, même en utilisation personnelle.


N'hésite pas à me faire un retour.
Qu'il soit positif ou négatif.
thick
CITATION(Arlette @ lundi 9 juin 2008 à 14:54) *
on va éviter de dire le nom de "SEQ"

Surtout que je suis actuellement en train de discuter avec un responsable de SEQ et qu'il connaît ce thread puisque je lui ait montré.
J'ai un billet en préparation pour mettre à plat mon point de vue à propos de SEQ, d'où la discussion interne en cours smartass.gif
Si vous avez des avis pertinents à partager, je suis preneur en MP (pour ceux qui savent ou se doutent de qui ou en quoi consiste SEQ)
Régis
CITATION(thick @ lundi 9 juin 2008 à 16:11) *
(...) J'ai un billet en préparation pour mettre à plat mon point de vue à propos de SEQ (...)

Excellente idée... et pourquoi pas une publication sur le Hub ?
thick
CITATION(Régis @ lundi 9 juin 2008 à 16:27) *
et pourquoi pas une publication sur le Hub ?


Parce que c'est plutôt un billet d'opinion que réellement un article technique qui correspondrait aux publications du Hub.
Cela dit, dès que je retrouve un peu de motivation pour faire un article digne de figurer sur le Hub, il faudra que je m'y colle.
Ceci est une version "bas débit" de notre forum. Pour voir la version complète avec plus d'information, la mise en page et les images, veuillez cliquer ici.