Imprimer
Partage :

Post-édition : que peut apporter la recherche scientifique à la pratique ?

Comment développer ses compétences en post-édition de traduction automatique lorsque la formation n’inclut pas cette possibilité? La recherche scientifique peut y aider.

Par Rudy Loock

rudyloockLa traduction automatique neuronale : une approche pragmatique

Depuis qu’elle est devenue « neuronale » au milieu des années 2010, la traduction automatique (TA), qui existe pourtant depuis des décennies, s’est répandue sur le marché des métiers de la traduction et des services linguistiques. Ainsi, en Europe, c’est désormais près d’un quart des projets qui fait intervenir cette technologie, dans les agences de traduction comme chez les indépendants, si l’on en croit les derniers chiffres de l’étude ELIS (European Language Industry Survey1) publiée au printemps 2022. De nouvelles tâches sont devenues monnaie courante, au premier rang desquelles la post-édition, qui consiste à corriger les pré-traductions fournies par les moteurs de TA. De même, les formations en traduction professionnelle intègrent désormais souvent une formation à la traduction automatique aux côtés de la traduction assistée par ordinateur. 

Des pré-traductions à la post-édition : la TA comme outil d’aide à la traduction

Si le débat fait parfois rage chez les membres des professions langagières, débat qui occasionnellement s’éloigne d’une approche raisonnée tant la traduction automatique suscite des inquiétudes qu’il convient de ne pas ignorer, il semble désormais acquis que cette technologie n’est pas un phénomène temporaire et que l’enjeu est d’en faire un outil d’aide à la traduction aux côtés des outils existants. Il importe alors de développer une compétence nouvelle, une « MT literacy » (Machine Translation literacy) pour reprendre le terme mis en avant dans un excellent ouvrage de la professeure Lynne Bowker et du doctorant en génie Jairo Buitrago Ciro publié en 20192. Cette compétence couvre des considérations d’ordre technique (comprendre ce qu’est un moteur de TA et les différents biais qui apparaissent dans les résultats, savoir comment optimiser son utilisation), d’ordre déontologique, mais aussi en lien avec la gestion de projets (quand accepter ou refuser un projet de post-édition, quels tarifs proposer, comment conseiller les clients). Il importe également de développer des compétences en post-édition.

Les travaux de recherche comme possibilité de formation

Pour développer cette compétence nouvelle qu’est la correction des sorties de TA et mettre au point une façon efficace de travailler avec ce que fournit la machine, on peut suivre des formations, initiales ou continues, mais aussi se documenter grâce à des revues professionnelles comme Circuit ou Traduire (dont le numéro 246, de 2022, est justement consacré à la traduction automatique) qui permettent d’échanger retours d’expérience et opinions sur le sujet. Apparemment moins connue en revanche est l’existence d’une importante littérature scientifique : les colloques, journées d’études, numéros spéciaux de revues, ou encore ouvrages se multiplient et fournissent des résultats directement exploitables par les traductrices et les traducteurs, notamment pour la post-édition. En effet, de nombreuses études analysent les sorties de moteurs de TA donnés (génériques ou spécialisés), pour des paires de langues spécifiques, et pour toute une série d’analyses d’ordre linguistique. Par exemple, différentes études ont montré que les pré-traductions fournies par les moteurs de TA se caractérisaient par une richesse lexicale moindre (voir par exemple l’article d’Eva Vanmassenhove, Dimitar Shterionov, et Andy Way dans les actes du 17e sommet de l’European Association for Machine Translation3). D’autres ont constaté l’apparition de phénomènes inattendus comme des créations lexicales (mots inexistants), à hauteur de 15 % pour des traductions de l’anglais vers le néerlandais, avec des conséquences négatives sur la compréhension dans 60 % des cas4. D’autres travaux encore ont établi que les traductions automatiques de l’anglais vers le français, obtenues via DeepL, Google Traduction ou l’outil de la Commission européenne eTranslation se caractérisaient par des écarts vis-à-vis des normes attendues en langue française originale. Par exemple, l’auteur de ces lignes a constaté qu’un certain nombre de phénomènes linguistiques y étaient sur-représentés : les structures existentielles en il y a, les adverbes dérivés en –ment, ou encore le coordonnant et et le verbe dire dans toutes ses formes. Une étude complémentaire menée en collaboration avec l’Université de Gand en Belgique a révélé que de façon générale, le français traduit automatiquement depuis l’anglais se caractérisait entre autres par des phrases plus longues qu’en français original, par une richesse lexicale moindre du fait d’un recours à des séquences de mots identiques, ou encore par davantage de formes verbales et la présence de créations lexicales.

La recherche scientifique au service de la pratique

Toute cette information mise au jour par les études scientifiques peut nous permettre de mesurer les limites de la traduction automatique neuronale, connue pour constituer une sorte de « leurre » du fait de l’accent mis sur la fluidité de la langue cible. En se servant des résultats obtenus, on peut par exemple dresser une liste de contrôle ou un aide-mémoire utile au moment de post-éditer les pré-traductions fournies par la machine. La littérature scientifique est par ailleurs aujourd’hui facilement accessible avec le développement de l’accès libre : de nombreuses revues sont consultables gratuitement en ligne et certains événements scientifiques diffusent très rapidement les actes des communications voire les enregistrements (citons à cet égard les colloques de l’Association européenne pour la traduction automatique, EAMT, qui publie en accès libre les actes avant même le début de chaque colloque5).  

Il peut être difficile de trouver le temps de consulter cette littérature scientifique, une activité chronophage mais qui peut aussi sembler difficile d’accès du fait de la technicité de certaines publications. Toutefois, l’important n’est pas de tout comprendre, mais de récupérer de l’information pertinente et exploitable dans la pratique : quels moteurs ont été testés, pour quelles paires de langues et quels phénomènes, avec quelles observations et conclusions. Par ailleurs, certains sites internet comme https://slator.com/ synthétisent et vulgarisent les publications scientifiques (voir par exemple l’article sur l’évaluation de la traduction automatique disponible ici : https://slator.com/how-to-improve-automatic-machine-translation-evaluation-add-humans-scientists-say/).

En conclusion…

L’objectif de cet article était de sensibiliser les membres des professions langagières à l’existence d’une littérature scientifique prolifique sur toutes les questions en lien avec la traduction automatique en général, et la post-édition en particulier. Les travaux dans le domaine, qu’ils soient menés par des organismes publics ou privés peuvent les aider à approfondir leurs connaissances et à accroître leurs compétences de façon concrète, et à produire des traductions où la plus-value humaine est évidente.

Rudy Loock est Professeur des universités en linguistique anglaise et en traductologie au sein du département Langues étrangères appliquées (LEA) de l’université de Lille, où il est responsable du parcours de master Traduction spécialisée multilingue. Il est par ailleurs affilié à l’UMR Savoirs, Textes, Langage du CNRS, où il mène des recherches essentiellement en traductologie de corpus et en didactique de la traduction. Il est actuellement membre du comité directeur du réseau European Master's in Translation (EMT) de la Commission européenne et vice-président de l’Association française des formations universitaires aux métiers de la traduction (AFFUMT).


  1. https://elis-survey.org/
  2. Bowker, Lynne, et Buitrago Ciro, Jairo. Machine Translation and global research: Towards improved machine translation literacy in the scholarly community. Bingley, Emerald Publishing, 2019.
  3. Vanmassenhove, Eva, Shterionov, Dimitar, et Way, Andy. « Lost in Translation: Loss and Decay of Linguistic Richness in Machine Translation.  » In Proceedings of Machine Translation Summit XVII: Research Track, pages 222–232, Dublin, Ireland. European Association for Machine Translation (2019). Disponible sur https://aclanthology.org/W19-6622/
  4. Macken, Lieve, Van Brussel, Laura, et Daems, Joke. « NMT’s wonderland where people turn into rabbits. A study on the comprehensibility of newly invented words in NMT output.  » Computational Linguistics in the Netherlands Journal 9 (2019): 67-80. Disponible sur https://www.clinjournal.org/clinj/article/view/93 
  5. https://eamt.org/

Références :

Automatique, vraiment ? Numéro 246 de la revue Traduire de la Société française des traducteurs, 2022. Disponible sur https://journals.openedition.org/traduire/2725 

De Clercq Orphée, de Sutter, Gert, Loock, Rudy, Cappelle, Bert, et Plevoets, Koen. Uncovering Machine Translationese Using Corpus Analysis Techniques to Distinguish between Original and Machine­Translated French. Translation Quarterly, The Hong Kong Translation Society, 2021, pp.21-45. Disponible sur https://www.hkts.org.hk/translation-quarterly 

European Language Industry Survey 2022: Trends, expectations and concerns of the European language industry. Disponible sur https://elis-survey.org/

Loock, Rudy. « Traduction automatique et usage linguistique : une analyse de traductions anglais-français réunies en corpus.  » Meta : journal des traducteurs, Presses Universitaires de Montréal 63, no 3 (2018): 785-805. Disponible sur https://www.erudit.org/fr/revues/meta/2018-v63-n3-meta04634/1060173ar/ 


Partage :