La mise en œuvre d’un outil de traduction automatique (TA) dans la fonction publique fédérale a provoqué bien des remous. Des points de vue divergents ont été exprimés, et l’un des arguments les plus évoqués à tort et à travers est celui de la qualité, un aspect pourtant crucial dans l’implantation d’outils.
La qualité c’est « [l’e]nsemble des caractéristiques d'un bien ou d'un service qui lui confèrent l'aptitude à satisfaire de manière continue les besoins et les attentes des utilisateurs ou des usagers1 ». Elle se définit au moyen de critères, comme « la fiabilité, la disponibilité [et] la durabilité », et « se mesure à l’aide d’indicateurs », comme le taux d’utilisation et le nombre d’utilisateurs2. Il va de soi qu’elle concerne tant les caractéristiques inhérentes au produit que sa capacité à répondre aux besoins de l’utilisateur et qu’elle s’inscrit dans un contexte précis à partir duquel sont définis les indicateurs et les critères pertinents.
L'évaluation de la qualité de la TA ne fait pas exception : tout dépend du contexte. Évalue-t-on la TA à des fins de développement? Au contraire, l’évaluation est-elle axée sur l’utilisateur? Ce dernier utilise-t-il la TA à des fins de compréhension linguistique ou pour produire une traduction de haute qualité? Dans les pratiques de traduction professionnelles, c’est le deuxième cas qui prévaut et qui suppose un effort de postédition qu’il faudra également circonscrire. Tous ces facteurs permettent de déterminer l’approche choisie pour évaluer la qualité de la TA.
Traditionnellement, l’évaluation de la qualité de la TA s’inscrit dans une perspective où la TA est une fin en soi, car elle est axée sur le système et son développement. Dans ce cas, ce sont surtout les mesures automatiques, comme BLEU, qui sont utilisées. Ces mesures sont des formules mathématiques qui produisent un score sur la qualité, lequel correspond ni plus ni moins au calcul de la similarité entre la traduction produite et une traduction de référence. Elles servent surtout aux développeurs qui désirent comparer divers systèmes ou versions, mais elles comportent l’inconvénient majeur de ne pas forcément corréler avec le jugement humain – n’oublions pas que la notion de qualité pour l’ordinateur s’appuie ici uniquement sur des critères mathématiques.
C’est dans cette optique que les développeurs se tournent aussi vers des techniques d’évaluation humaine qui consistent essentiellement à classifier les erreurs au moyen d’une typologie; à mesurer subjectivement les données de sortie en fonction d’une échelle ou à faire un classement hiérarchique des diverses données de sortie pour un même segment de la langue de départ3. Les critères qualitatifs les plus souvent utilisés dans ce contexte sont la fluidité et l’exactitude. La fluidité correspond au caractère naturel de la langue et concerne tous les éléments de la structure linguistique, dont la morphologie, l’orthographe et la grammaire, la typographie, les usages lexicaux naturels, la structure syntaxique et le caractère intelligible d’une phrase donnée. Quant à la mesure d’exactitude, elle concerne l’équivalence d’une donnée de sortie, soit la fidélité au sens original. Évidemment, la subjectivité de l’humain entre en compte, et des coefficients de mesure de cohérence intra‑évaluateur et inter‑évaluateur sont de mise pour assurer une certaine objectivité.
Toutes ces techniques produisent des mesures de qualité absolues convenant surtout à la recherche et au développement, mais elles font abstraction des impératifs de qualité de l’utilisateur dans la réalisation de ses tâches. Voilà les raisons pour lesquelles les stratégies d’évaluation humaine axées sur les tâches gagnent en popularité. Ce type d’évaluation s’inscrit dans un contexte d’utilisation particulier qui permet de considérer la TA non pas comme une fin, mais en tant qu'outil dont on cherche à comprendre l’utilité et l’utilisation au moyen de critères comme l’acceptabilité et la productivité4. Des critères objectifs peuvent également intervenir dans ce type d’évaluation – pensons, entre autres, au calcul du nombre de frappes ou au temps de postédition pour mesurer, par exemple, la réalisation d’une traduction de haute qualité.
Ce type d’évaluation interpelle plus directement l’utilisateur et permet de mieux définir la place de la TA en tant qu’outil. Est-ce un outil parfait? Certainement pas. Mais un outil doit-il être parfait pour être utile? Il semblerait que ce ne soit pas la qualité dans l’absolu qui importe tant, mais l’utilité globale de l’outil malgré ses faiblesses (répond-il à un besoin?), la façon dont on l’utilise (a-t-on des attentes et une utilisation réalistes?) et la compétence de l’utilisateur (c’est lui qui a les compétences et qui doit mener la barque). Antidote est un excellent outil d’aide à la rédaction, par exemple, et a démontré qu’il pouvait répondre à un besoin, mais des compétences rédactionnelles minimales sont tout de même requises pour produire un texte de haute qualité, sinon le résultat risque d’être décevant. C’est donc dire qu’une utilisation irréaliste a forcément une incidence sur la perception de qualité. Il en va de même pour la TA : il faut s’assurer d’une utilisation réaliste et, pour ce faire, il est nécessaire de cerner la capacité de l’outil à répondre à un besoin de nature traductionnelle dans des circonstances données. À ce compte-là, les recherches axées sur le traducteur, ses tâches et ses besoins sont de mise. Le gros hic, c’est qu’il faut compter sur la participation indispensable du traducteur.
Cessons d’évaluer la TA de façon absolue comme s’il s’agissait d’un traducteur suppléant capable de répondre à des normes de qualité élevée et examinons-la pour ce qu’elle est : un outil, au même titre qu’un dictionnaire ou une mémoire de traduction. Pour ce faire, il est nécessaire – répétons-le – de considérer ses capacités, c'est-à-dire ses caractéristiques inhérentes et ses limites, par le fait même. En conséquence, pour éviter les déclarations gratuites et se prononcer de façon un tant soit peu objective à cet égard, il faut au minimum prendre en compte le type de technologie et le domaine de traduction.
Deux grandes catégories de technologies coexistent : les systèmes à base de règles linguistiques et les systèmes statistiques. Les premiers sont descriptifs, car ils requièrent en amont des descriptions formelles des langues de départ et d’arrivée en plus de dictionnaires spécialisés et généraux. Quant aux seconds, ils fonctionnent par inférence, car ils permettent un recyclage a posteriori de volumineux corpus de traductions antérieures – et humaines – grâce à des modèles statistiques et linguistiques. Les règles pourraient avoir tendance à générer des traductions figées et vraisemblablement mal désambigüisées dans une structure syntaxique qui colle à la langue de départ. Quant aux statistiques, elles génèrent, dans le meilleur des cas, un assemblage automatique des séquences de mots les plus fréquentes dans les corpus d’entraînement. Les séquences de mots offrent la possibilité d’une meilleure désambigüisation, certes, mais la structure syntaxique peut être déficiente, ou carrément absente. En l’absence de séquences de mots recyclables, le système s’appuierait sur les mots isolés qui alimentent les corpus.
Si le domaine de traduction et la combinaison linguistique importent, c’est tout simplement parce que le système doit avoir reçu de l’information pertinente, que ce soit au moyen de règles linguistiques ou de corpus d’entraînement volumineux dans les langues et domaines dont il est question. Par conséquent, Portage, système statistique entraîné sur les textes du gouvernement canadien, dont le Hansard, aura un bien meilleur rendement que d’autres systèmes dans tous les domaines de spécialité du gouvernement, mais il ne faudrait surtout pas s’attendre à la même qualité dans le domaine de la biologie cellulaire, à moins, bien sûr, de compter sur un système spécialisé. Et il va sans dire que la TA ne peut, dans aucune circonstance, faire justice aux œuvres de Voltaire et de Michel Tremblay.
L’évaluation de la qualité ne saurait se limiter à une réponse simple, claire et univoque, d’autant plus que la complexité de la langue et de l’acte de traduction ne simplifie pas la donne. Qu’on se le tienne donc pour dit, même dans des conditions optimales, tout est possible en TA : les meilleures données de sortie ressemblent à des traductions humaines, et les pires, à un charabia incompréhensible qui, dans le meilleur des cas, fera rigoler un peu. Mais entre le meilleur et le pire, il y a une gamme de phénomènes à découvrir. S’il est souhaitable d’évaluer ces phénomènes dans le cadre d’une stratégie d’évaluation axée sur les tâches et sur l’utilisateur, il n’est toutefois pas toujours possible de déployer un arsenal scientifique complet. Parfois, il faut compter sur des moyens plus modestes et se forger une opinion éclairée sur la qualité de la TA et sa capacité à répondre à des besoins précis. Dans ce cas, une typologie des erreurs peut servir, même si elle est traditionnellement axée sur le système et non pas sur les besoins du traducteur. Il suffirait d’adopter une nomenclature des phénomènes adaptée au monde de la traduction et d’insister sur le fait que ce genre d’exercice demeure subjectif – surtout s’il n’est pas fait dans un cadre scientifique –, et sur l’importance, pour le traducteur, d’utiliser la TA afin de savoir comment s’approprier ou non cette technologie. Est-ce que certaines erreurs lui semblent plus acceptables que d’autres? La typologie lui permet-elle de découvrir les forces et les faiblesses de son système dans un domaine particulier?
La première étape consiste à examiner la fluidité de la donnée de sortie sans s’appuyer sur la langue de départ. Le message est-il compréhensible et dans quelle mesure? Pour cerner le type et l’ampleur des problèmes de fluidité, il convient d’examiner dans l’ordre les erreurs suivantes et d’indiquer, si possible, le nombre d’erreurs par type :
Plus le chiffre du type d’erreur et le nombre d’erreurs par type sont élevés, plus l’intelligibilité et l’exactitude du message risquent d’être compromises. S’il est difficile parfois de séparer la fluidité de l’exactitude, il est tout de même intéressant d’examiner les répercussions de la fluidité sur l’exactitude. Considérons à présent ces erreurs d’exactitude en examinant la langue de départ et en mettant l’accent d’abord sur les mots de contenu.
Il pourrait aussi y avoir des erreurs de traduction tout à fait fluides qui passeraient sous le nez du traducteur inattentif.
Il reste maintenant à considérer les chiffres, les dates ou autres variables non linguistiques. De plus, il revient aussi au traducteur de se forger une opinion propre sur son niveau de tolérance et ses besoins particuliers en prenant en compte tous les facteurs dont il a été question pour déterminer ultimement en quoi la TA pourrait lui être utile.
Étant donné les multiples facettes de l’évaluation de la TA, il est carrément hardi de parler de qualité en termes absolus. N’en déplaise à certains, la TA fait désormais partie de la réalité, et pour justifier le rejet global de la TA, l’argument de la qualité ne tient pas la route s’il n’est pas accompagné d’une information contextuelle pertinente. Il reste maintenant à utiliser la TA à bon escient en lui donnant la place qui lui revient : celle d’un simple outil parfois utile, parfois moins utile, qui ne peut pas prendre en charge le processus de traduction. Par conséquent, c’est aussi au traducteur, en tant qu’utilisateur compétent, qu’il revient de prendre position sur ce qu’il juge acceptable ou non en s’appropriant la technologie de façon constructive. Ainsi, lui seul pourra et devra décider dans quelle mesure et dans quelles circonstances il accepte d’être postéditeur.
Judith Rémillard est traductrice et doctorante à l’École de traduction et d’interprétation de l’Université d’Ottawa. Elle terminera sous peu sa thèse doctorale qui porte sur l’acceptabilité de la traduction automatique aux fins de postédition.
1 Grand dictionnaire terminologique
(13 août 2016)
2 Ibid.
4 Ibid.