Imprimer
Partage :

Vers de nouveaux horizons en terminologie

Elizabeth Marshman

L’avenir de la terminologie sera étroitement lié à celui des technologies : ces dernières facilitent non seulement les recherches terminologiques, mais se fondent aussi en partie sur le fruit de ces mêmes recherches. Elles permettent également de diffuser la terminologie à un public de plus en plus grand et varié.

Alors, quelle forme prendra cette tendance dans la décennie à venir? Explorons quelques possibilités. Les perspectives qui s’ouvrent à l’heure actuelle dans l’industrie de la langue et à l’extérieur constitueront le point de départ de cette exploration, qui empruntera des chemins probables et, pour la vaste majorité, souhaitables pour la terminologie au Canada et ailleurs.

Les technologies en évolution : l’intelligence artificielle

La vaste gamme d’applications de l’intelligence artificielle (IA) dans nombre d’activités et d’emplois touchant les êtres humains nous incite à reconnaître son influence grandissante sur notre société. Qui plus est, les enjeux économiques, politiques, scientifiques et éthiques des changements qui découlent de son déploiement nous rappellent les risques que nous pourrions courir. Durant la prochaine décennie, nous disposerons de plus en plus d’outils qui nous aideront à accomplir toute une gamme d’activités, allant des plus simples aux plus complexes. Bien entendu, nous devrons trouver les bonnes façons d’assurer une intégration efficace et productive de ces outils à notre vie quotidienne et à notre milieu de travail.

L’industrie de la langue au Canada et ailleurs dans le monde fournit un exemple prototypique d’intégration technologique. Déjà utile pour effectuer certaines tâches – dont la classification automatique des documents, l’analyse syntaxique et sémantique de textes, la rédaction de textes grâce à la reconnaissance vocale et la génération automatique de textes, –, l’IA a récemment capté notre attention lorsque les systèmes statistiques lui ont cédé leur place comme procédé dominant en traduction automatique (TA). La traduction automatique neuronale (TAN), qui fait appel à l’apprentissage machine pour créer les modèles produisant des traductions, est considérée par certains comme ayant atteint une qualité d’équivalence humaine1 (angl. human parity). Bien sûr, nous devons considérer de telles assertions d’un œil (très) critique, mais le fait même d’évoquer une telle possibilité démontre l’importance des progrès réalisés en traduction automatique. Nous commençons seulement à nous rendre compte des propriétés de la TAN pour l’exercice de la traduction.

À l’été 2018, le géant Google Translate, connu pour son système de TA gratuite en ligne, s’est lancé dans le marché des systèmes de traduction faits (ou plutôt, entraînés) sur mesure pour un client donné2. Ces systèmes ouvrent certainement la porte à de nouvelles applications personnalisées de la TA, mais elles ne sont pas sans risques. Selon certains chercheurs3, les approches neuronales auraient besoin de moins de données d’entraînement (c’est-à-dire les traductions alignées à partir desquelles les systèmes « apprennent » des combinaisons et équivalences probables) que leurs homologues statistiques pour produire une traduction de qualité comparable, mais rencontrent plus de difficultés lorsqu’elles disposent de peu de données adaptées à l’application visée, et traduisent souvent mal les mots rares.

Éviter que les systèmes neuronaux commettent des erreurs est souhaitable, car ceux-ci ont tendance à faire des fautes qui sont plus difficiles à relever que celles des anciens modèles statistiques. Ainsi, lorsqu’un système de TAN produit une sortie incorrecte, celle-ci a souvent tendance à être fluide (c’est-à-dire acceptable sur le plan syntaxique), mais inadéquate sur le plan sémantique (laissant parfois l’humain perplexe devant la relation que le système a établie avec le texte original).

Quelles sont les implications pour la terminologie? Dans les domaines où on compte utiliser la TAN – et il y a lieu de croire que ceux-ci deviendront de plus en plus nombreux étant donné l’amélioration de la qualité produite – les avantages d’avoir une quantité de textes de bonne qualité avec une terminologie harmonisée et donc moins variable seront de plus en plus importants. La disponibilité de telles ressources permettra non seulement d’offrir un produit de qualité au lecteur humain, mais aussi de développer des systèmes efficaces entraînés sur mesure pour un domaine ou une application donnée, et d’éviter des difficultés liées à la traduction incorrecte de formes rares ou inconnues. Une vérification méticuleuse des ébauches produites (postédition) demeure toutefois essentielle dans la vaste majorité des cas. En outre, l’intérêt d’avoir des outils pour appuyer ce travail (des outils d’assurance-qualité qui intègrent une vérification de la terminologie connue et de sa cohérence, par exemple) est manifeste. Cette vérification nécessitera bien sûr une analyse préalable de la terminologie recommandée. Heureusement, l’intelligence artificielle pourra justement venir en aide au terminologue qui se charge de ce processus dans un certain nombre de tâches préliminaires (entre autres, la classification de documents et la recherche semi-automatique d’équivalents). Par la suite, il faudra assurer le stockage des données qui résultent de ce travail dans un format accessible tant aux outils informatiques qu’aux humains.

Exploitation polyvalente de données terminologiques

La normalisation du stockage de données terminologiques pour en faciliter la consultation et l’échange n’est pas nouvelle. La norme TBX et ses variantes conçues pour accommoder la consultation humaine et machine en témoignent4. Bien entendu, l’intervention humaine en amont et en aval reste pour le moment essentielle pour garantir la compatibilité et la compréhension du contenu terminologique, tant par les humains que par les machines. Or, plus l’automatisation jouera un rôle important dans l’industrie de la langue, plus on devra s’assurer que le stockage des données soit compatible avec les nouveaux outils et permette l’exportation de ces données vers plusieurs applications.

L’exploitation de la terminologie au sein de nouvelles applications technologiques constituera sans doute un domaine d’intérêt croissant. Mais c’est loin d’être le seul élément à surveiller. Inspirés par les besoins de l’industrie de la langue et à l’extérieur, des projets prometteurs voient actuellement le jour. Ainsi, au sein de l’industrie, on constate une utilisation de plus en plus fréquente des outils informatiques conçus pour aider les interprètes à se préparer et à effectuer leur travail. Connaître la terminologie constitue un des défis les plus importants dans cette fonction, mais les exigences situationnelles (variabilité des sujets, temps limité, charge cognitive lourde, accès souvent limité aux technologies dans la cabine) rendent les solutions classiques inefficaces. Néanmoins, de nos jours, de plus en plus d’outils (la suite logicielle Interpretbank5 par exemple) peuvent combler les besoins spécifiques de ces langagiers. Les approches novatrices en recherche et en gestion de la terminologie (fonctions permettant de traiter des fichiers audio et modèles de glossaire terminologique conçus sur mesure pour la préparation et le travail en cabine, entre autres) témoignent de l’adaptation grandissante de ces outils au contexte d’utilisation prévu pour la terminologie.

À l’occasion, ce sont les langagiers de différents secteurs de l’industrie (et même dans certains cas, les utilisateurs eux-mêmes) qui se rassemblent pour combler les besoins du public. Parmi les exemples récents, on compte Terminology without Borders6, qui réunit notamment le service de coordination de la terminologie du Parlement européen, des agences de l’Union européenne et des Nations unies ainsi que des universités pour concevoir des ressources terminologiques. Un des premiers exemples est YourTerm Medical, base de données en sept langues conçue pour mettre la terminologie médicale à la disposition de tous, ce qui est particulièrement utile dans la situation actuelle de migration mondiale. Ce ne sera certainement pas la dernière fois que des langagiers s’impliqueront dans une cause qui reflète l’aspect de plus en plus multilingue et collaboratif de la planète.

Ces adaptations méthodologiques, pratiques et technologiques se reflètent aussi dans des approches théoriques. Les perspectives cognitives et lexico-sémantiques7, entre autres, complètent des approches plus traditionnelles d’étude de la terminologie par des réflexions poussées sur certains liens entre termes ou concepts qui peuvent être consignés de différentes façons dans les ressources terminologiques. Cet accent mis sur les relations entre termes et concepts rappelle l’intérêt pour les bases de connaissances terminologiques et les métadonnées en terminologie8, démontrant que le besoin de bien saisir et représenter correctement ces liens continuera à attirer l’attention encore longtemps.

La méthodologie et les outils qui sous-tendent l’exercice de la terminologie évoluent sans cesse. On doit donc encore relever des défis importants pour rentabiliser les efforts collaboratifs des intervenants des différents secteurs concernés par la terminologie, pour trouver un équilibre entre l’échangeabilité et la polyvalence des données et pour combler à la fois les besoins de l’industrie et ceux du grand public. C’est là qu’on constate toute l’importance de la pensée, de l’expérience et de la connaissance humaines nécessaires pour profiter pleinement des outils qui nous aideront à façonner l’avenir terminologique.

Elizabeth Marshman est professeur agrégée à l’École de traduction et d’interprétation à l’Université d’Ottawa et membre de l’Observatoire de linguistique Sens-texte. Ses intérêts de recherche englobent la terminologie, la traductique, et l’évaluation de ressources terminologiques et d’outils du point de vue de l’utilisateur.

1. Awadalla, H.A. et coll. « Achieving Human Parity on Automatic Chinese to English News Translation », Microsoft.com, mars 2018, https://www.microsoft.com/en-us/research/publication/achieving-human-parity-on-automatic-chinese-to-english-news-translation/, visité le 22 octobre 2018.

2.Google, « Empowering businesses and developers to do more with AI”, https://www.blog.google/products/google-cloud/empowering-businesses-and-developers-to-do-more-with-ai/, visité le 26 octobre 2018.

3Par exemple, Koehn, P. et R. Knowles, « Six Challenges for Neural Machine Translation », Proceedings of the First Workshop on Neural Machine Translation, Vancouver, Canada, 4 août 2017, pp. 28–39, http://www.aclweb.org/anthology/W17-3204, visité le 23 octobre 2018.

4. Voir entre autres http://www.tbxinfo.net/, visité le 24 octobre 2018.

5. Interpretbankhttp://www.interpretbank.com/, visité le 25 octobre 2018.

6. Terminology without borders, http://termcoord.eu/terminology-without-borders/, visité le 26 octobre 2018.

7. Voir entre autres Faber, Pamela, 2014, « Frames as a framework for terminology », dans H. Kockaert & F. Steurs (dirs.), Handbook of Terminology, Amsterdam/Philadelphie, John Benjamins; et L’Homme, Marie-Claude, 2018, « Maintaining the balance between knowledge and the lexicon in terminology: a methodology based on frame semantics », Lexicography 4.1 (juin 2018): 3-21.

8. L’intérêt pour les ontologies a inspiré une série de colloques, entre autres TOTh 2019 : Terminologie & Ontologie : Théories et applications, http://toth.fr.condillac.org/, visité le 26 octobre 2018.


Partage :