Webmaster Hub: Aspirer un site à intervalle régulier - Webmaster Hub

Aller au contenu

Page 1 sur 1
  • Vous ne pouvez pas commencer un sujet
  • Vous ne pouvez pas répondre à ce sujet

Aspirer un site à intervalle régulier Noter : -----

#1 L'utilisateur est hors-ligne   superve 

  • Groupe : Membre
  • Messages : 2
  • Inscrit(e) : 14-novembre 09

Posté 14 novembre 2009 - 17:14

Bonjour,

la semaine prochaine, j'ai besoin de faire un truc un peu spécial, et je me demandais s'il existe un logiciel (de préférence gratuit) me permettant de le faire :

Sur un site d'accès public, sera publié cette semaine une page qui sera mise en accès public pendant quelques minutes (pour des essais de publication avant la mise en ligne officielle).
N'ayant ni le temps ni la possibilité de rester connecté sur ce site de 8 heures à 18 heures pour rafraîchir ma page, je me demandais s'il existait un programme me permettant d'aspirer tout le contenu de ce site à intervalle régulier (genre toutes les 2 ou 3 minutes) en ne téléchargeant, à partir de la 2ème fois, que les mises à jour et les conservant après qu'elles ne soient plus en ligne.

une idée ???

merci d'avance
0

#2 L'utilisateur est hors-ligne   jcaron 

  • Groupe : Membre+
  • Messages : 844
  • Inscrit(e) : 15-janvier 08
  • Genre:Homme
  • Localisation:Londres

Posté 15 novembre 2009 - 01:20

Un wget avec les bonnes options (man wget pour les trouver) en cron ou dans une boucle avec un sleep approprié...

Trivial, quoi :->

Jacques.
0

#3 L'utilisateur est hors-ligne   Patrick 

  • Le débordeur !
  • Groupe : Fondateur
  • Messages : 2 139
  • Inscrit(e) : 14-décembre 04
  • Genre:Homme
  • Localisation:Les Maillys
  • Société:Adifco

Posté 15 novembre 2009 - 02:38

Voir le messagesuperve, le 14 novembre 2009 - 17:14, dit :

... en ne téléchargeant, à partir de la 2ème fois, que les mises à jour et les conservant après qu'elles ne soient plus en ligne.

wget permet de faire ça ?
Puisque c'est si simple que ça pour toi jcaron, merci de nous donner le script complet, car je suis également très intéressé et je ne sais pas comment faire.

++

Patrick
Devis référencement pour votre site.
Référencement avec paiement aux résultats, la première page de Google sinon rien !
Référencement pour TPE, PME/PMI et grands comptes.
Adifco est un organisme de formation agréé: HTML, CSS, PHP, MySQL, SEO, SEA, etc.
0

#4 L'utilisateur est hors-ligne   jcaron 

  • Groupe : Membre+
  • Messages : 844
  • Inscrit(e) : 15-janvier 08
  • Genre:Homme
  • Localisation:Londres

Posté 15 novembre 2009 - 12:49

La preuve que c'est simple:
wget --mirror url_de_la source



--mirror essaie de tout récupérer (en sautant ce qui n'a pas changé), mais n'efface pas les fichiers qui ne sont plus présents ou vers lesquels il n'y a plus de liens, donc c'est un peu abusif comme nom pour l'option, mais ça tombe bien, c'est ce qu'on veut ici.

Tu peux ensuite le mettre en cron
*/3 * * * * wget --mirror url_de_la source



Mais si ça met plus de 3 minutes à parcourir tout ça ça risque de faire de pas belles choses (parce que 2 wget ou plus vont se lancer en parallèle). Donc, mieux, un petit script qui attend que ce soit fini, attend un peu, et recommence:

#!/bin/sh
while true
do
 wget --mirror url_de_la_source
 sleep 180
done



Evidemment il peut être nécessaire d'ajuster les options de wget suivant les liens qu'il y a sur les pages en question (là il va essayer de suivre tous les liens et de télécharger tous les fichiers, images, etc. et tout ça récursivement jusqu'à plus soif). Encore une fois, man wget est l'ami de tous.

Jacques.
0

#5 L'utilisateur est hors-ligne   Patrick 

  • Le débordeur !
  • Groupe : Fondateur
  • Messages : 2 139
  • Inscrit(e) : 14-décembre 04
  • Genre:Homme
  • Localisation:Les Maillys
  • Société:Adifco

Posté 15 novembre 2009 - 16:45

Merci Jacques !
C'est super et ça va m'être très utile.

Merci encore :thumbsup:

++

Patrick
Devis référencement pour votre site.
Référencement avec paiement aux résultats, la première page de Google sinon rien !
Référencement pour TPE, PME/PMI et grands comptes.
Adifco est un organisme de formation agréé: HTML, CSS, PHP, MySQL, SEO, SEA, etc.
0

#6 L'utilisateur est hors-ligne   superve 

  • Groupe : Membre
  • Messages : 2
  • Inscrit(e) : 14-novembre 09

Posté 16 novembre 2009 - 00:21

merci infiniment.

C'est exactement ce qu'il me fallait et cela me convient parfaitement dans la mesure où ça télécharge également tous les pdf, jpg etc.

ma ligne donne ça : c:\Users\superve>wget -r -k -level=8 --proxy=off --cache=off --html-extension -mirror http://www.NDD.fr

Maintenant il ne me reste plus qu'à me battre avec le cron...

suis sous vista et apparemment c'est un truc linux, les cron pour windows doivent pas fonctionner pareil...

Merci en tous cas
0

#7 L'utilisateur est hors-ligne   destroyedlolo 

  • Groupe : Hubmaster
  • Messages : 792
  • Inscrit(e) : 05-juillet 04
  • Genre:Homme
  • Localisation:Nonglard

Posté 20 novembre 2009 - 12:15

Si t'as un access shell au serveur, rsync devrait etre plus rapide.
Amiga, UNIX, Ubuntu, NetBSD, Sharp, Apache, PHP, Ski, Vacances, Voyages
100 % dictionnary free - 1 mispelling by word
Viendez chez moi
0

#8 L'utilisateur est hors-ligne   Dan 

  • Webmaster
  • Voir le blog
  • Voir la galerie
  • Groupe : Direction
  • Messages : 22 727
  • Inscrit(e) : 18-août 03
  • Genre:Homme
  • Localisation:St Anne, Alderney
  • Société:Webmaster Hub Ltd.

Posté 21 novembre 2009 - 00:00

Voir le messagesuperve, le 16 novembre 2009 - 00:21, dit :

suis sous vista et ...


Voir le messagedestroyedlolo, le 20 novembre 2009 - 12:15, dit :

Si t'as un access shell au serveur, rsync devrait etre plus rapide.

Un accès shell sous Vista :?:
0

#9 L'utilisateur est hors-ligne   jcaron 

  • Groupe : Membre+
  • Messages : 844
  • Inscrit(e) : 15-janvier 08
  • Genre:Homme
  • Localisation:Londres

Posté 21 novembre 2009 - 00:07

http://www.cygwin.com/

Jacques.
0

#10 L'utilisateur est en ligne   Jeanluc 

  • Groupe : Fondateur
  • Messages : 1 995
  • Inscrit(e) : 04-octobre 04
  • Genre:Homme
  • Localisation:Bruxelles

Posté 21 novembre 2009 - 06:01

Voir le messagesuperve, le 16 novembre 2009 - 00:21, dit :

Maintenant il ne me reste plus qu'à me battre avec le cron...

suis sous vista et apparemment c'est un truc linux, les cron pour windows doivent pas fonctionner pareil...
Sous Windows, il y a le "Planificateur de tâches" (dans "Tous les programmes" >> "Accessoires" >> "Outils système").

Jean-Luc
Liste de + de 150 annuaires FreeGlobes et autres listes d'annuaires pour le référencement.
Testeur de redirection (301, 302, meta refresh,...)
Le Grand Annuaire : comme DMOZ, mais avec indexation super-rapide
0

#11 L'utilisateur est hors-ligne   destroyedlolo 

  • Groupe : Hubmaster
  • Messages : 792
  • Inscrit(e) : 05-juillet 04
  • Genre:Homme
  • Localisation:Nonglard

Posté 23 novembre 2009 - 14:52

Voir le messageDan, le 21 novembre 2009 - 00:00, dit :

Un accès shell sous Vista :?:

Il y a une ligne de commande pour Cygwin ou encore des clones compatibles rsync (en 5 secondes, notre ami google m'a sortie cwRsync et DeltaCopy).

Lolo (C'est vrais que j'ai du mal a faire l'association entre les mots "serveur" et "ms-vista" ;) )
Amiga, UNIX, Ubuntu, NetBSD, Sharp, Apache, PHP, Ski, Vacances, Voyages
100 % dictionnary free - 1 mispelling by word
Viendez chez moi
0

Partager ce sujet :


Page 1 sur 1
  • Vous ne pouvez pas commencer un sujet
  • Vous ne pouvez pas répondre à ce sujet

1 utilisateur(s) en train de lire ce sujet
0 membre(s), 1 invité(s), 0 utilisateur(s) anonyme(s)