Page 1 sur 1
Aspirer un site à intervalle régulier
#1
Posté 14 novembre 2009 - 17:14
Bonjour,
la semaine prochaine, j'ai besoin de faire un truc un peu spécial, et je me demandais s'il existe un logiciel (de préférence gratuit) me permettant de le faire :
Sur un site d'accès public, sera publié cette semaine une page qui sera mise en accès public pendant quelques minutes (pour des essais de publication avant la mise en ligne officielle).
N'ayant ni le temps ni la possibilité de rester connecté sur ce site de 8 heures à 18 heures pour rafraîchir ma page, je me demandais s'il existait un programme me permettant d'aspirer tout le contenu de ce site à intervalle régulier (genre toutes les 2 ou 3 minutes) en ne téléchargeant, à partir de la 2ème fois, que les mises à jour et les conservant après qu'elles ne soient plus en ligne.
une idée ???
merci d'avance
la semaine prochaine, j'ai besoin de faire un truc un peu spécial, et je me demandais s'il existe un logiciel (de préférence gratuit) me permettant de le faire :
Sur un site d'accès public, sera publié cette semaine une page qui sera mise en accès public pendant quelques minutes (pour des essais de publication avant la mise en ligne officielle).
N'ayant ni le temps ni la possibilité de rester connecté sur ce site de 8 heures à 18 heures pour rafraîchir ma page, je me demandais s'il existait un programme me permettant d'aspirer tout le contenu de ce site à intervalle régulier (genre toutes les 2 ou 3 minutes) en ne téléchargeant, à partir de la 2ème fois, que les mises à jour et les conservant après qu'elles ne soient plus en ligne.
une idée ???
merci d'avance
#3
Posté 15 novembre 2009 - 02:38
superve, le 14 novembre 2009 - 17:14, dit :
... en ne téléchargeant, à partir de la 2ème fois, que les mises à jour et les conservant après qu'elles ne soient plus en ligne.
wget permet de faire ça ?
Puisque c'est si simple que ça pour toi jcaron, merci de nous donner le script complet, car je suis également très intéressé et je ne sais pas comment faire.
++
Patrick
Devis référencement pour votre site.
Référencement avec paiement aux résultats, la première page de Google sinon rien !
Référencement pour TPE, PME/PMI et grands comptes.
Adifco est un organisme de formation agréé: HTML, CSS, PHP, MySQL, SEO, SEA, etc.
Référencement avec paiement aux résultats, la première page de Google sinon rien !
Référencement pour TPE, PME/PMI et grands comptes.
Adifco est un organisme de formation agréé: HTML, CSS, PHP, MySQL, SEO, SEA, etc.
#4
Posté 15 novembre 2009 - 12:49
La preuve que c'est simple:
--mirror essaie de tout récupérer (en sautant ce qui n'a pas changé), mais n'efface pas les fichiers qui ne sont plus présents ou vers lesquels il n'y a plus de liens, donc c'est un peu abusif comme nom pour l'option, mais ça tombe bien, c'est ce qu'on veut ici.
Tu peux ensuite le mettre en cron
Mais si ça met plus de 3 minutes à parcourir tout ça ça risque de faire de pas belles choses (parce que 2 wget ou plus vont se lancer en parallèle). Donc, mieux, un petit script qui attend que ce soit fini, attend un peu, et recommence:
Evidemment il peut être nécessaire d'ajuster les options de wget suivant les liens qu'il y a sur les pages en question (là il va essayer de suivre tous les liens et de télécharger tous les fichiers, images, etc. et tout ça récursivement jusqu'à plus soif). Encore une fois, man wget est l'ami de tous.
Jacques.
wget --mirror url_de_la source
--mirror essaie de tout récupérer (en sautant ce qui n'a pas changé), mais n'efface pas les fichiers qui ne sont plus présents ou vers lesquels il n'y a plus de liens, donc c'est un peu abusif comme nom pour l'option, mais ça tombe bien, c'est ce qu'on veut ici.
Tu peux ensuite le mettre en cron
*/3 * * * * wget --mirror url_de_la source
Mais si ça met plus de 3 minutes à parcourir tout ça ça risque de faire de pas belles choses (parce que 2 wget ou plus vont se lancer en parallèle). Donc, mieux, un petit script qui attend que ce soit fini, attend un peu, et recommence:
#!/bin/sh while true do wget --mirror url_de_la_source sleep 180 done
Evidemment il peut être nécessaire d'ajuster les options de wget suivant les liens qu'il y a sur les pages en question (là il va essayer de suivre tous les liens et de télécharger tous les fichiers, images, etc. et tout ça récursivement jusqu'à plus soif). Encore une fois, man wget est l'ami de tous.
Jacques.
#5
Posté 15 novembre 2009 - 16:45
Merci Jacques !
C'est super et ça va m'être très utile.
Merci encore
++
Patrick
C'est super et ça va m'être très utile.
Merci encore
++
Patrick
Devis référencement pour votre site.
Référencement avec paiement aux résultats, la première page de Google sinon rien !
Référencement pour TPE, PME/PMI et grands comptes.
Adifco est un organisme de formation agréé: HTML, CSS, PHP, MySQL, SEO, SEA, etc.
Référencement avec paiement aux résultats, la première page de Google sinon rien !
Référencement pour TPE, PME/PMI et grands comptes.
Adifco est un organisme de formation agréé: HTML, CSS, PHP, MySQL, SEO, SEA, etc.
#6
Posté 16 novembre 2009 - 00:21
merci infiniment.
C'est exactement ce qu'il me fallait et cela me convient parfaitement dans la mesure où ça télécharge également tous les pdf, jpg etc.
ma ligne donne ça : c:\Users\superve>wget -r -k -level=8 --proxy=off --cache=off --html-extension -mirror http://www.NDD.fr
Maintenant il ne me reste plus qu'à me battre avec le cron...
suis sous vista et apparemment c'est un truc linux, les cron pour windows doivent pas fonctionner pareil...
Merci en tous cas
C'est exactement ce qu'il me fallait et cela me convient parfaitement dans la mesure où ça télécharge également tous les pdf, jpg etc.
ma ligne donne ça : c:\Users\superve>wget -r -k -level=8 --proxy=off --cache=off --html-extension -mirror http://www.NDD.fr
Maintenant il ne me reste plus qu'à me battre avec le cron...
suis sous vista et apparemment c'est un truc linux, les cron pour windows doivent pas fonctionner pareil...
Merci en tous cas
#7
Posté 20 novembre 2009 - 12:15
Si t'as un access shell au serveur, rsync devrait etre plus rapide.
Amiga, UNIX, Ubuntu, NetBSD, Sharp, Apache, PHP, Ski, Vacances, Voyages
100 % dictionnary free - 1 mispelling by word
Viendez chez moi
100 % dictionnary free - 1 mispelling by word
Viendez chez moi
#8
#10
Posté 21 novembre 2009 - 06:01
superve, le 16 novembre 2009 - 00:21, dit :
Maintenant il ne me reste plus qu'à me battre avec le cron...
suis sous vista et apparemment c'est un truc linux, les cron pour windows doivent pas fonctionner pareil...
suis sous vista et apparemment c'est un truc linux, les cron pour windows doivent pas fonctionner pareil...
Jean-Luc
Liste de + de 150 annuaires FreeGlobes et autres listes d'annuaires pour le référencement.
Testeur de redirection (301, 302, meta refresh,...)
Le Grand Annuaire : comme DMOZ, mais avec indexation super-rapide
Testeur de redirection (301, 302, meta refresh,...)
Le Grand Annuaire : comme DMOZ, mais avec indexation super-rapide
#11
Posté 23 novembre 2009 - 14:52
Dan, le 21 novembre 2009 - 00:00, dit :
Un accès shell sous Vista 
Il y a une ligne de commande pour Cygwin ou encore des clones compatibles rsync (en 5 secondes, notre ami google m'a sortie cwRsync et DeltaCopy).
Lolo (C'est vrais que j'ai du mal a faire l'association entre les mots "serveur" et "ms-vista"
Amiga, UNIX, Ubuntu, NetBSD, Sharp, Apache, PHP, Ski, Vacances, Voyages
100 % dictionnary free - 1 mispelling by word
Viendez chez moi
100 % dictionnary free - 1 mispelling by word
Viendez chez moi
- ← Question: peut-on avoir 2 IP identiques en même temps dans les logs ?
- PC-Gyver
- ram sur power book G4 444 ou 288 →
Partager ce sujet :
Page 1 sur 1



Haut














