Comment traduire son site dans une langue dont on ne parle pas un mot !

Explication succincte de la méthode de traduction statistique suivie d’un exemple appliqué à la traduction du site Chine-Nouvelle.com en portugais.


1. Traduire son site afin d’augmenter son audience

Proposer son site en d’autres nouvelles langues est une manière d’élargir son public. C’est à peu près le but de tout Webmaster. Jusqu’ici il existait deux solutions permettant au webmaster de traduire son site dans une langue qu’il ne maîtrise pas :

l’onéreuse : avoir recours aux services d’un traducteur professionnel ;
la laborieuse : s’acheter une bonne méthode de langue et commencer à apprendre. Cela peut prendre des années.
Voici une nouvelle technique de traduction qui ne nécessite aucune aide humaine extérieure, la traduction statistique.

2. Introduction à la méthode de traduction statistique

Le couple homme machine
Le principe est assez simple et basé sur le couple homme + machine. Pour une phrase donnée, on traduit d’abord les mots à l’aide d’un traducteur en ligne automatique, puis on détermine la meilleure tournure correcte en confrontant les différentes associations de mots au contenu d’une base de données gigantesque. En effet, pour une tournure possible, si la recherche dans la base de données renvoie un grand nombre de résultats, elle peut être considérée correcte. Si pour deux tournures possibles, l’une renvoie x fois plus de résultats que l’autre, elle sera considérée correcte.

Machine + Humain = Méthode Statistique de traduction
(traducteur automatique) (base de données de millions d’articles écrits par des humains)

3. Démonstration de la méthode appliquée à un cas concret

Traduction du site Chine-Nouvelle.com du français au portugais.

- Site d’origine à traduire : http://www.chine-nouvelle.com (français)
- Site destination : http://www.a-china.info (portugais)
- Traducteur en ligne : Systran (http://babelfish.altavista.com/tr)
- Base de données gigantesque : Google (http://www.google.com)

Pour commencer, calcul d’un ordre de grandeur

Le nombre de pages internet dans chaque langue n’étant pas le même, il faut tout d’abord se donner un ordre d’idée des résultats auxquels s’attendre.

Pour quelques recherches types nous comparons le nombre de résultats fournis par google pour une recherche en français et pour la même recherche en portugais. Par exemple « dictionnaire en ligne » renvoie 1 400 000 résultats, « dicionário online » en renvoie 70 000. Nous en déduisons un rapport, qui pour l’exemple est de 1 pour 20 en faveur du français.

Après plusieurs recherches types, nous pouvons conclure que pour un rapport inférieur à 100 (souvent à l’avantage du français) les recherches parallèles peuvent être considérées comme valables.

1er exemple, cohérence avec l’odre de grandeur

Le but de cet exemple est de traduire la phrase « paroles de chansons » pour la rubrique musicale du site.

Le traducteur donne : « palavras de canções ».
Comparons alors les résultats retournés par google pour les deux recherches. « paroles de chansons » renvoie 1 140 000 résultats, « palavras de canções » seulement 25 résultats. Le rapport est de plus de 40 000 ! La traduction ne peut donc être considérée valable. En faisant, toujours sur google, quelques recherches aléatoires en portugais avec les mots clés « música », « canções » on finit par dénicher le terme « letras » (en français : lettres). Une recherche sur « letras de canções » renvoit 30.000 résultats. Le rapport est de 38, bien inférieur à 100 la limite de validité. De plus les sites retournés sont bien des sites de paroles.

Nous pouvons donc affirmer sans le moindre doute que la traduction de « paroles de chansons » est « letras de canções ».

2ème exemple, cohérence relative

Le but de cet exemple est de traduire la phrase « découvrir la Chine, apprendre le chinois »

Le traducteur donne : « descobrir a China, aprender chinês »
La recherche de la phrase complète dans google ne renvoie aucun résultat.

Recherche directe

Scindons la phrase en deux et comparons les résultats d’une recherche directe.

« découvrir la Chine » renvoie 30 000 résultats, « descobrir a China », 15 résultats, le rapport est de 2000. « apprendre le chinois » renvoie 300 000 résultats, « aprender chinês » 600 résultats, le rapport est de 500. Les deux rapports 2000 et 600 sont au delà de la limite de validité. Tout comme le premier exemple, nous opérons quelques recherches aléatoires sur les mots China, chinês. Cependant contrairement au cas précédent, aucune autre variante ne ressort.

Recherche indirecte

Remplaçons maintenant le mot Chine par France et gardons la même structure grammaticale.

« découvrir la France » renvoie 350 000 résultats, « descobrir a França » renvoie 22 000 résultats. Le rapport est de 16, dans la limite de validité. De même pour « apprendre le français » 600 000 résultats et « aprender francês » 100 000 qui donne un rapport de 6. On peut donc conclure que ce n’est pas la structure grammaticale de la phrase qui est en cause et remarquer simplement que les sites portugais s’intéressent beaucoup moins à la Chine qu’à la France.

Nous pouvons aussi affirmer sans le moindre doute que la traduction de « découvrir la Chine, apprendre le chinois » est « descobrir a China, aprender chinês ».

4. La méthode analogique

A la méthode statistique s’ajoute aussi la méthode analogique. Plus évidente, elle consiste à se baser sur des sites de référence déjà disponibles dans les deux langues et par analogie des deux versions établir un lexique. Un mot ayant plusieurs acceptions différentes dans une langue, le traducteur, sans le contexte propose une traduction aléatoire.

Site de référence(version française) => Site de référence(version portugaise)
Site à traduire(version française) => Traduction

En procédant par analogie on évite l’emploi de faux amis et autres maladresses.

Les sites Yahoo France et Brésil (les Brésiliens parlent portugais), nous ont permis d’établir par analogie un premier lexique général.

A la place du « Accueil » de Yahoo France, on trouve « Início » sur Yahoo Brésil, alors que le traducteur en ligne avait traduit par « Acolhimento ». A la place du « Recherche Web » de Yahoo France, on trouve « Buscar na web » sur Yahoo Brésil alors que le traducteur avait traduit par « Investigação Web ». Et ainsi de suite…

Les versions française et portugaise du site Wikipedia permet d’établir un lexique plus spécialisé.

La page « spécificatif » (terme désignant un type de caractères chinois) de Wikipédia français est traduite par « classificador » sur Wikipédia portugais alors que le traducteur avait traduit « specificativo ».

5. Conclusion

Et voilà comment en deux après-midi j’ai pu mettre en ligne la première version du site Chine-Nouvelle.com en portugais, sans jamais avoir appris un seul mot de portugais. J’ai envoyé dans la foulée l’adresse du site a-china.info à deux personnes trouvées sur internet et dont le portugais est la langue maternelle. Ils me répondirent aussitôt, emballés par l’existence de ce nouveau site en portugais consacré à la Chine et à la langue chinoise. Leur réponse était en portugais, ils n’imaginaient pas que ce ne fut pas ma langue maternelle.

Olive (webmaster de Chine-Nouvelle.com)
31 Janvier 2007