Aller au contenu

Kreeger

Membre
  • Compteur de contenus

    3
  • Inscrit(e) le

  • Dernière visite

Réputation sur la communauté

0 Neutre
  1. Kreeger

    Comparateur de prix

    Bonjour jcaron, Je visualise bien le concept de crawler les milliers de pages. J'avais commencé à faire cela en php mais cela prend énormément de temps et j'obtiens des timeouts. J'avais pensé à parcourir avec un script les rares sitemaps qu'on me donnait pour enregistrer les urls à crawler dans la base de donnée, puis dans un deuxième temps, exécuter un autre fichier qui va parcourir chaque url enregistrée et parser ce qu'il faut. Mais de nouveau: temps d'exécution considérable, timeout... Bref.. Petite remise en question: Il faut faire cela en php? ou dans un autre language? Exécuter une seule fois le fichier qui parcourt les urls et parse (il va donc tourner très.. très... TRES longtemps).. ou exécuter ce fichier très régulièrement grâce à des crons? Cela demande énormément de temps pour réaliser le script qui va parser juste un seul site (car chaque site est différent). Au final, est-ce un projet réalisable ou dois-je seulement référencer les sites qui fournissent des CVS, XML "propre" (donc qui éviter de devoir crawler)... ?
  2. Kreeger

    Comparateur de prix

    Bonjour, Merci pour ta réponse rapide. Il n'y a plus qu'à espérer qu'ils en aient un
  3. Kreeger

    Comparateur de prix

    Bonjour, J'aimerais réaliser un petit comparateur de prix pour des clés cd de jeux vidéo (c'est tout à fait légal, je vous rassure). Les prix sont indiqués sur des sites qui vendent ces clés cd (cdkeyhouse par exemple). Cependant, là où cela coince, c'est que rare sont ceux qui ont un flux rss qui référence les jeux qu'ils vendent. Et parmis ceux qui proposent un tel fichier, parfois souvent il y a des doublons avec des noms différents pour un même produit et c'est vraiment la galère intégrale pour regrouper les produits identiques.... captain_torche m'a parlé de Search API for Shopping qui peut être une bonne piste. Je n'avais pas pensé à utiliser les moteurs de recherche de cette façon (malheureusement l'api semble dépréciée). D'autres encore référencent le nom du jeu et un lien vers la fiche du produit, mais pas le prix ! Du coup, je suis obligé de scanner la page du produit (curl en php). Mais évidemment, c'est très.. très long et cela dépasse le timeout des hébergeurs (30 secondes). Sachant qu'il y a encore des milliers de produits à parcourir, je ne vois vraiment pas comment procéder. Me voilà donc bloqué. Si tout le monde avait un flux rss propre, ce serait facile évidemment, mais ce n'est pas le cas. Comment procéder dans ce cas ? Il faut faire ca en PHP ou dans un autre language ? Utiliser seulement ceux qui ont un flux rss "propre" (ce qui limite vraiment beaucoup) ? Ou trouver une solution pour parser le contenu, sachant que dès qu'ils metteront à jour la structure de leur site, il faudra réadapter tout le code ? Tout en gardant à l'esprit qu'une centaine de pages scannées (juste pour récupérer le prix), c'est au moins 30 secondes et que les hébergeurs limitent le temps maximum d'exécution a 30 secondes (et qu'il reste des centaines voir des milliers de pages à parser) ? Si vous avez des conseils, n'hésitez pas... Merci
×