Aller au contenu

Préparation du contenu


thick

Sujets conseillés

Bonjour à tous,

Voilà mon dilemne :

Du contenu est créé sur mesure par des personnes sans aucune connaissance en HTML. Ce contenu arrive donc en format .doc (Word) qu'il faut ensuite passer sous HTML avec la perte de temps que cela implique puisque Word génère tout un tas de "saloperies" qui viennent salir le code source. C'est aussi sans compter le répétitif copier-coller...

Bref, je voulais savoir s'il existe un traitement de texte qui soit capable de générer un code HTML simple et propre. En effet, le code source final qui accueille ce contenu est en XHTML et il suffit donc que le document de base puisse générer les titres, sous-titres (H1, H2, etc) et les listes (ul) de façon générique.

Merci

@+

Laurent

Lien vers le commentaire
Partager sur d’autres sites

Pourquoi ne pas laisser tes utilisateurs avec leur word et récupérer les contenus en XML ? Après tu traites les balises XML comme bon te semble pour l'affichage web.

Tu as des objets word pour VB permettant de récupérer les contenus en fonction des styles ou des listes, tableaux, etc...

Lien vers le commentaire
Partager sur d’autres sites

Le mieux serait de les enregistrers sous format "texte brut" avec word.

ensuite tu peut en faire ce que tu veux plus facilement .

Lien vers le commentaire
Partager sur d’autres sites

Une solution idéale m'intéresse aussi.

En attendant, pour les sites qui ne sont pas basés sur un cms, il m'arrive de passer par l'interface admin d'un blog dotclear. Un copy paste du texte word dans le champ de saisi du billet (configuré au format wiki), quelques mises en formes (titres, listes, ...) toujours en format wiki, "enregister", puis éditer le billet, et "transformer en xhtml".

Pas vraiment automatique, mais j'obtiens ainsi, sans trop d'effort, un code html tout à fait correct.

Lien vers le commentaire
Partager sur d’autres sites

Bonsoir,

J'utilise très exactement la méthode expliquée par Jan sans difficulté aucune, depuis 2 ans.

Bien sûr il faut légèrement retoucher, mais je doute de toute façon qu'une solution réellement parfaite existe.

C'est d'ailleurs agréablement suprenant de voir que mes petites bidouilles persos sont également utilisées par d'autres personnes :)

Lien vers le commentaire
Partager sur d’autres sites

Il n'y a pas de solution parfaite à ma connaissance mais il y a quand même moyen d'éviter le copier-coller manuel.

Si le client gère tous ses documents dans Word il est possible d'établir des conventions de style avec lui et d'automatiser la récupération de ses documents :

Une appli VB qui s'exécute la nuit par exemple, scanne les fichiers modifiés dans les dernières 48 heures, et met à jour la bdd web via XML-SOAP.

Si certains d'entre vous sont intéressés vous pouvez me MP.

Lien vers le commentaire
Partager sur d’autres sites

Tu peux demander à tes clients de générer des pages HTML avec Open Office. Ils ont exactement la même interface qu'un word, et le code est assez propre (à condition bien sur qu'ils n'abusent pas trop des fonctionnalitées avancées).

Tizel

Lien vers le commentaire
Partager sur d’autres sites

Merci pour toutes vos réponses :)

Le Hub est toujours le meilleur pour obtenir les réponses dont on a besoin en 1 temps record.

Concernant Word je suis vraiment un utilisateur de base et je connais pas les fonctions avancées de type VB mais je vais y jeter un oeil.

La solution de Jan et de Dudu m'a l'air aussi très intéressante.

Encore merci

@+

Laurent

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

en fait je viens de voir que Microsoft, dans sa grande sagesse (c'est pas souvent, alors utilisons les grands mots), à ajouté un format (sauf erreur depuis Word 2003) pour la sauvegarde : Page Web, filtrée (*.htm; *.html)

Ce format est le même que "Page Web (*.htm; *.html)", mais toutes les balises Office sont supprimée...et oh miracle les niveaux de titres sont conservés...donc si vous structurez bien le contenu de vos documents Word vous obtiendrez les <h1> à <h6>...

Bon, le fichier n'est pas conforme au recommandations du W3C, il n'y a même pas de DOCTYPE, mais la structure des documents semble bien reflétée...la majorité des information de mise en forme sont traduite en CSS...celles qui n'ont pas été traduites en CSS sont mise à même le code HTML... genre pour une liste il n'utilise pas list-style-type: disc; ...mais à même la balise <ul> l'attribut type="disc" ... cela a des inconvénients mais la plus grosse partie du boulot est faite à mon avis.

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...