Jump to content
Sign in to follow this  
thick

Préparation du contenu

Rate this topic

Recommended Posts

Bonjour à tous,

Voilà mon dilemne :

Du contenu est créé sur mesure par des personnes sans aucune connaissance en HTML. Ce contenu arrive donc en format .doc (Word) qu'il faut ensuite passer sous HTML avec la perte de temps que cela implique puisque Word génère tout un tas de "saloperies" qui viennent salir le code source. C'est aussi sans compter le répétitif copier-coller...

Bref, je voulais savoir s'il existe un traitement de texte qui soit capable de générer un code HTML simple et propre. En effet, le code source final qui accueille ce contenu est en XHTML et il suffit donc que le document de base puisse générer les titres, sous-titres (H1, H2, etc) et les listes (ul) de façon générique.

Merci

@+

Laurent

Share this post


Link to post
Share on other sites

Pourquoi ne pas laisser tes utilisateurs avec leur word et récupérer les contenus en XML ? Après tu traites les balises XML comme bon te semble pour l'affichage web.

Tu as des objets word pour VB permettant de récupérer les contenus en fonction des styles ou des listes, tableaux, etc...

Share this post


Link to post
Share on other sites

En utilisant le format rtf et non word ça n'irait pas ?

Share this post


Link to post
Share on other sites

Bonjour,

Plusieurs éditeurs WYSIWYG (embarqués dans un navigateur) sont capables d'épurer un copier-coller opéré depuis Word... Pour n'en citer qu'un FCKEditor ...

Sinon il y a WordCleaner ..mais c'est commercial...

Share this post


Link to post
Share on other sites

Le mieux serait de les enregistrers sous format "texte brut" avec word.

ensuite tu peut en faire ce que tu veux plus facilement .

Share this post


Link to post
Share on other sites

Une solution idéale m'intéresse aussi.

En attendant, pour les sites qui ne sont pas basés sur un cms, il m'arrive de passer par l'interface admin d'un blog dotclear. Un copy paste du texte word dans le champ de saisi du billet (configuré au format wiki), quelques mises en formes (titres, listes, ...) toujours en format wiki, "enregister", puis éditer le billet, et "transformer en xhtml".

Pas vraiment automatique, mais j'obtiens ainsi, sans trop d'effort, un code html tout à fait correct.

Share this post


Link to post
Share on other sites

Une solution possible, sous condition de l'OS: ici

A voir si tu peux l'adapter.

xpatval

Share this post


Link to post
Share on other sites

Bonsoir,

J'utilise très exactement la méthode expliquée par Jan sans difficulté aucune, depuis 2 ans.

Bien sûr il faut légèrement retoucher, mais je doute de toute façon qu'une solution réellement parfaite existe.

C'est d'ailleurs agréablement suprenant de voir que mes petites bidouilles persos sont également utilisées par d'autres personnes :)

Share this post


Link to post
Share on other sites

Il n'y a pas de solution parfaite à ma connaissance mais il y a quand même moyen d'éviter le copier-coller manuel.

Si le client gère tous ses documents dans Word il est possible d'établir des conventions de style avec lui et d'automatiser la récupération de ses documents :

Une appli VB qui s'exécute la nuit par exemple, scanne les fichiers modifiés dans les dernières 48 heures, et met à jour la bdd web via XML-SOAP.

Si certains d'entre vous sont intéressés vous pouvez me MP.

Share this post


Link to post
Share on other sites

Tu peux demander à tes clients de générer des pages HTML avec Open Office. Ils ont exactement la même interface qu'un word, et le code est assez propre (à condition bien sur qu'ils n'abusent pas trop des fonctionnalitées avancées).

Tizel

Share this post


Link to post
Share on other sites

Merci pour toutes vos réponses :)

Le Hub est toujours le meilleur pour obtenir les réponses dont on a besoin en 1 temps record.

Concernant Word je suis vraiment un utilisateur de base et je connais pas les fonctions avancées de type VB mais je vais y jeter un oeil.

La solution de Jan et de Dudu m'a l'air aussi très intéressante.

Encore merci

@+

Laurent

Share this post


Link to post
Share on other sites

Bonjour,

en fait je viens de voir que Microsoft, dans sa grande sagesse (c'est pas souvent, alors utilisons les grands mots), à ajouté un format (sauf erreur depuis Word 2003) pour la sauvegarde : Page Web, filtrée (*.htm; *.html)

Ce format est le même que "Page Web (*.htm; *.html)", mais toutes les balises Office sont supprimée...et oh miracle les niveaux de titres sont conservés...donc si vous structurez bien le contenu de vos documents Word vous obtiendrez les <h1> à <h6>...

Bon, le fichier n'est pas conforme au recommandations du W3C, il n'y a même pas de DOCTYPE, mais la structure des documents semble bien reflétée...la majorité des information de mise en forme sont traduite en CSS...celles qui n'ont pas été traduites en CSS sont mise à même le code HTML... genre pour une liste il n'utilise pas list-style-type: disc; ...mais à même la balise <ul> l'attribut type="disc" ... cela a des inconvénients mais la plus grosse partie du boulot est faite à mon avis.

Share this post


Link to post
Share on other sites

Lodel répond peut-être à ta problèmatique.

Il prend en entrée du .doc, .odt ... ( tout ce que sait lire openoffice ).

Share this post


Link to post
Share on other sites

TheRec j'ai essayé le format HTML de Word mais je me retrouve avec un max de balises à éradiquer.

Forth, pas mal Lodel. Merci pour l'info ;)

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

×
×
  • Create New...