Version complète: sur le forum Webmaster Hub : Syndiquer sans SQL
Webmaster Hub > Création et exploitation de Sites Internet > Les langages du Net > XML et ses dialectes
JJJ
Bonjour,
je voudrais que vous m'otiez un doute svp : il n'est pas strictement pas possible de fabriquer un flux de syndication d'un site dont on ne connaît pas de quoi se logguer à la base ? (et sans faire une maj manuelle bien sûr)
N'ya-t-il pas moyen de fabriquer un parser qui balaye périodiquement au moins toute nouvelle donné en brut (via le résultat html) d'un site quelconque ?

Merci pour vos lumières
Leonick
il y a "juste" besoin de se créer un parseur, qui va parcourir toutes les pages à la recherche de nouvelles url et que d'après le contenu des pages de ces url il arrive à faire un résumé.
Un bot quoi !
JJJ
Oui voilà, j'avais pensé à la façon dont fonctionnent les bots; mais est-ce que xml peut s'exploiter pour ça ? nonono.gif Aucune idée. Je sais pas comment on fait ça.

Pourriez-vous m'aiguiller ? Je ne trouve pas beaucoup d'infos didactiques sur l'usage éventuel de xml ou de la syndication afin d'envisager une détection de type bot sad.gif
aspeum
Il y a ça aussi : http://www.ponyfish.com/

Est-ce ça répond à ta demande ?

Je l'ai essayé sur un site, ça marche très bien.
JJJ
Très intéressant ce ponyfish, merci.

Cependant, si j'essaye sur site avec frame, ça plante. La faq explique qu'il faut faire pointer sur le frame et choisir des item dans ce frame, oui mais si d'une part le frame est élaboré en php on peut pas vraiment l'afficher seul, ensuite c'est le frame lui-même qui doit être en lien... enfin bref le moteur de ponyfish s'y retrouve pas.
Soho
Oui ! merci pour le lien aspeum
aspeum
CITATION(JJJ @ mardi 7 novembre 2006, 17h34) *
Cependant, si j'essaye sur site avec frame, ça plante. La faq explique qu'il faut faire pointer sur le frame et choisir des item dans ce frame, oui mais si d'une part le frame est élaboré en php on peut pas vraiment l'afficher seul, ensuite c'est le frame lui-même qui doit être en lien... enfin bref le moteur de ponyfish s'y retrouve pas.

Oui, le système ne doit probablement supporter que des sites correspondant à certains standards...

J'en profite pour préciser qu'ils sont extrêmement réactifs : j'ai essayé de créer un flux sur un site, le flux semblait se casser sur un élément, j'envoie un mail pour demander de l'aide ; j'ai eu une réponse sympa dans la journée, et l'outil était adapté dans la semaine (un caractère spécial semblait poser problème).
JJJ
C'est dommage pour moi que le site que je veux syndiquer ne soit pas aux normes (frames), mais ils ont raison de privilégier certains standards.
J'en reviens aux bots donc... il me faudrait créer un robot d'indextaion régulière de nouvelles données. Je n'ai aucune idée de la difficulté à coder ça; quelqu'un aurait une piste pour élaborer ce truc ?
xou
As-tu essayé de ne parser que la frame qui t'intéresse ?
JJJ
Oui, j'aimerais bien, mais je ne parviens pas à l'isoler. Impossible de choper son url brut (je reprécise que le site ne m'appartient pas).

C'est pourquoi ça m'amène à m'interroger sur le fonctionnement d'un bot d'indexation : de toute évidence ces machine fonctionnent sur la régularité de la visite pour sonder tout nouveau texte et hyperlien. Comment fait-il ..? C'est bien une façon de syndiquer des données, dans la démarche, mais on est loin de rss et compagnie là. Pourtant c'est à ce résultat que j'aimerais parvenir.
Ceci est une version "bas débit" de notre forum. Pour voir la version complète avec plus d'information, la mise en page et les images, veuillez cliquer ici.