Aller au contenu

Extraire le texte de certains sites


Sebastien

Sujets conseillés

Je cherche à faire des études "statistico-linguistiques" sur le texte de certains sites, sur un très grand nombre de pages. Des logiciels comme WinHTTrack permettent de faire une copie locale en HTML, mais ce qui m'interesserai serait un logiciel au fonctionnement équivalent, mais qui sauvegarderait la seule information textuelle, et non le code HTML, idéalement au format .txt. Un tel logiciel (gratuit ou open source) existe-t-il ?

Lien vers le commentaire
Partager sur d’autres sites

Cette fonction ne fait que virer le balisage, mais elle ne vire pas le texte par exemple contenu dans les attributs href, title ou alt ? Ce qui m'intéresse est le texte significatif, càd celui qu'on obtient à la main en faisant un copié collé de l'intégralité du contenu d'une page web dans notepad par exemple.

Lien vers le commentaire
Partager sur d’autres sites

Dans un premier temps, tu gardes le contenu qui se trouve entre <body> et </body>.

Dans un second temps, tu appliques cette regex.

$vContenu = ereg_replace("<[^>]*>", "", $vContenu);

En php, ça permet le faire assez facilement (à compléter dans le cas ou tu as du javascript en plein milieu de la page).

Lien vers le commentaire
Partager sur d’autres sites

Merci de votre aide, étant plus doué pour la recherche que la prog j'ai découvert ce petit programme qui remplit très bien sa fonction : http://www.nirsoft.net/utils/htmlastext.html

(Faut vraiment que je m'améliore coté prog... je vais essayer d'apprendre les expressions régulières en 2007 tiens)

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...