Version complète: sur le forum
Webmaster Hub :
Aspiration d'un site
sparh
lundi 28 janvier 2008 à 09:30
Bonjour,
dans le cadre de mon boulot je dois aspirer notre site internet qui est en asp.
Autre détail important, nous utilisons de multiples sous-domaine (au moins 10) et je dois tous les récupérer.
J'ai trouvé httrack et je l'ai laissé tourner tout le week end.
Le problème, impossible de rester sur le site, le logiciel part directement dsans les méandre du web.
Y'a t'il un moyen de configurer httrack pour qu'il visite tous les sous domaines d'un site mais ne visite pas les domaines externes?
Auriez vous une solution, même payante pour aspirer un site?
Merci d'avance
Wefficient
lundi 28 janvier 2008 à 09:47
De mémoire avec HTTrack tu peux le configurer pour qu'il ne sorte pas du domaine initial (pas suivre les liens externes)
tu peux même lui indiquer jusqu'a quelle profondeur de lien il doit aller (genre pas plus de 3 liens de la page visée)
sparh
lundi 28 janvier 2008 à 10:35
Oui merci,
je l'ai configuré pour ne suivre qu'1 lien externe et 10 en profondeur interne et rien à faire, à chaque fois il m'aspire la moitié du web (des dizaines et des dizaines de sites externes)
J'ai recherché si il y avait des problèmes connuent avec HTTtrack et je n'ai rien trouvé?
Quelqu'un aurai une idée?
Dan
lundi 28 janvier 2008 à 10:59
Il suffit de le configurer pour qu'il ne suive aucun lien externe (mettre 0 et non 1), non ?
sparh
lundi 28 janvier 2008 à 11:21
Merci Dan mais j'ai essayé aussi (avec 0) et là il s'arrète tout de suite (car il ne prends pas en compte les sous domaines or notre site est composé de multiples sous-domaine).
Y'a t'il une solution payante ?
Dan
lundi 28 janvier 2008 à 11:26
Dans ce cas tu n'as pas d'autre possibilité ... il faudra lancer une instance de httrack pour chaque sous-domaine, en laissant la valeur à zéro.
Ou alors, fais un essai en mettant domaine.tld plutôt que www.domaine.tld.
En restant sur domaine.tld, tu devrais prendre les sous-domaines, même avec external links à zéro.
Wefficient
lundi 28 janvier 2008 à 11:50
je plussoie Dan
Magicoyo
lundi 28 janvier 2008 à 11:54
Tu peux essayer de lui coller les 10 sous domaine dans la liste des URLs à crawler, en spécifiant de ne pas suivre les liens externes bien entendu.
sparh
lundi 28 janvier 2008 à 12:01
Merci pour vos réponses,
je vais essayer ce que vous me conseillez
sparh
lundi 28 janvier 2008 à 15:40
Pour info, ça à l'air de fonctionner, j'ai mis l'exploration de site externe à 0, le nombre de lien interne à 20 (maximum) et j'ai mis comme urls de départ une url de chacun des nom de domaines.
Et ça a l'air de fonctionner
Ceci est une version "bas débit" de notre forum. Pour voir la version complète avec plus d'information, la mise en page et les images, veuillez
cliquer ici.