Bonjour, J'aimerais réaliser un petit comparateur de prix pour des clés cd de jeux vidéo (c'est tout à fait légal, je vous rassure). Les prix sont indiqués sur des sites qui vendent ces clés cd (cdkeyhouse par exemple). Cependant, là où cela coince, c'est que rare sont ceux qui ont un flux rss qui référence les jeux qu'ils vendent. Et parmis ceux qui proposent un tel fichier, parfois souvent il y a des doublons avec des noms différents pour un même produit et c'est vraiment la galère intégrale pour regrouper les produits identiques.... captain_torche m'a parlé de Search API for Shopping qui peut être une bonne piste. Je n'avais pas pensé à utiliser les moteurs de recherche de cette façon (malheureusement l'api semble dépréciée). D'autres encore référencent le nom du jeu et un lien vers la fiche du produit, mais pas le prix ! Du coup, je suis obligé de scanner la page du produit (curl en php). Mais évidemment, c'est très.. très long et cela dépasse le timeout des hébergeurs (30 secondes). Sachant qu'il y a encore des milliers de produits à parcourir, je ne vois vraiment pas comment procéder. Me voilà donc bloqué. Si tout le monde avait un flux rss propre, ce serait facile évidemment, mais ce n'est pas le cas. Comment procéder dans ce cas ? Il faut faire ca en PHP ou dans un autre language ?
Utiliser seulement ceux qui ont un flux rss "propre" (ce qui limite vraiment beaucoup) ? Ou trouver une solution pour parser le contenu, sachant que dès qu'ils metteront à jour la structure de leur site, il faudra réadapter tout le code ? Tout en gardant à l'esprit qu'une centaine de pages scannées (juste pour récupérer le prix), c'est au moins 30 secondes et que les hébergeurs limitent le temps maximum d'exécution a 30 secondes (et qu'il reste des centaines voir des milliers de pages à parser) ? Si vous avez des conseils, n'hésitez pas...
Merci