Les traducteurs utilisent depuis de nombreuses années des outils informatiques pour combler les attentes terminologiques de leurs clients. Ces logiciels leur sont devenus presque indispensables, notamment pour accélérer le processus de traduction et uniformiser leurs choix linguistiques. Certains pourraient croire que l’emploi de tels outils, conjugué à la multitude de connaissances accessibles sur Internet, suffit à satisfaire les besoins terminologiques des traducteurs et des clients. L’abondance de ressources est, bien sûr, un atout incontestable pour les langagiers, qui ont ainsi une ouverture exceptionnelle sur tous les champs du savoir. Toutefois, comme la terminologie contemporaine repose en grande partie sur cette vaste source de connaissances qu’est Internet, il devient plus que jamais nécessaire de faire appel à des spécialistes du domaine pour gérer le flux massif de données et organiser les termes.
Entre l’époque où le terminologue devait se déplacer pour rassembler des données documentaires et l’époque actuelle où l’information est foisonnante, les pratiques terminographiques ont beaucoup évolué. Quoi qu’il en soit, un fait demeure : les besoins sont toujours aussi grands. Le principal défi aujourd’hui est sans doute de savoir tirer profit de la pluralité de données disponibles en se dotant de méthodes rigoureuses pour les traiter.
La terminologie computationnelle se révèle extrêmement utile pour le terminologue confronté à la diffusion massive de connaissances. Ce champ de la recherche explore, entre autres applications, des stratégies d’automatisation des étapes de travail traditionnellement effectuées à la main lors de la création de ressources terminologiques. Les sphères de la terminologie computationnelle sont très variées et ont leur place dans toutes les disciplines où l’accès aux connaissances pose problème et où le choix du terme juste est crucial. Les domaines du traitement automatique des langues, des sciences de l’information ainsi que de l’intelligence artificielle visent particulièrement l’organisation des connaissances et font souvent intervenir des termes et des ressources terminologiques. Il sera ici question de terminologie computationnelle dans la mesure où elle répond aux besoins particuliers des terminologues à l’étape de la création d’une ressource terminologique.
Dans un article publié en 1991 dans la revue Meta, des chercheurs faisaient état d’un projet d’automatisation des tâches du terminologue. Déjà à cette époque, l’intérêt pour l’automatisation était marqué et les avancées semblaient prometteuses. L’activité terminologique est la même aujourd’hui et comporte essentiellement quatre phases principales, soit :
Chacune de ces étapes pouvait déjà faire l’objet d’une automatisation il y a une vingtaine d’années; de fait, les procédés se sont considérablement améliorés depuis lors. En ce qui concerne la compilation de la documentation, celle-ci peut désormais être exécutée de manière automatique à l’aide de méthodes itératives : une série préliminaire de mots-clés appartenant à un domaine donné et cherchés sur Internet permet de trouver un premier ensemble de documents dont on peut extraire d’autres mots-clés, que l’on peut chercher de nouveau sur Internet, et ainsi de suite, de manière à élargir graduellement la collection. Une fois celle-ci pleinement rassemblée, il est possible de nettoyer automatiquement (en supprimant, par exemple, la mise en forme et des codes superflus) les documents qu’elle renferme et de les stocker sous forme d’un corpus prêt à analyser.
Pour ce qui est de la recherche de termes, elle s’effectue au moyen d’extracteurs automatiques qui utilisent divers indices pour repérer des candidats-termes. Ces extracteurs automatiques font appel soit à des méthodes dites linguistiques qui s’appuient sur des patrons linguistiques (c’est-à-dire des formes typiques de termes, par exemple des syntagmes nom + préposition + nom comme dans dioxyde de carbone), soit à des méthodes dites statistiques qui reposent principalement sur des mesures de fréquence (surtout la fréquence relative) pour cibler des séquences de mots propres à des domaines particuliers; en effet, les termes propres à un domaine seront normalement plus fréquents dans des textes provenant dudit domaine que de la langue générale, ou d’autres domaines. Le terminologue utilise alors ces candidats comme point de départ pour dresser une liste de termes à analyser.
Cette analyse des termes extraits s’effectue en fonction des besoins du projet, ce qui influe également sur l’approche à retenir pour leur description et, donc, pour cerner les propriétés de la ressource à construire. Ainsi, pour un projet visant à appuyer une meilleure compréhension d’un domaine, le repérage des patrons linguistiques susceptibles de mettre en lumière des éléments de définition (par exemple, « est une sorte de » dans une phrase telle que l’azote est une sorte de gaz, ou « est un type de » dans le dioxyde de carbone est un type de gaz à effet de serre) ou la synonymie (par exemple, « aussi appelé » dans monoxyde de carbone, aussi appelé CO, ou « aussi connu sous le nom » dans réchauffement climatique, aussi connu sous le nom réchauffement planétaire) peut permettre d’étiqueter des relations sémantiques clés qui révèlent la structure du domaine et les relations entre les termes; ces résultats peuvent aussi aider le terminologue à trouver ou à rédiger des définitions qu’il consignera dans la ressource terminologique. Dans le cadre de projets visant à guider la traduction ou la rédaction dans un domaine de spécialité, une analyse de simple proximité ou de liens syntaxiques entre termes et d’autres éléments dans les textes (entre autres, des noms, des adjectifs ou des verbes qui se combinent couramment avec des termes) peut faciliter la recherche des cooccurrents.
Le terminologue utilisera alors son jugement pour choisir parmi ce réseau de relations et d’unités lexicales et terminologiques qu’il relie au terme à l’étude les éléments nécessaires pour construire une entrée terminologique, et il décidera de la façon de présenter ces derniers (par exemple, dans une structure spécialement prévue pour les accueillir ou bien par son choix de contextes ou d’exemples).
La multitude de données désormais accessibles dans Internet permet aux terminologues de construire des corpus spécialisés de très grande taille dont il importe, dans le cadre du processus terminographique, de tirer profit. Lorsqu’un nombre suffisant de textes sont réunis autour d’un même thème, des méthodes d’analyse statistique peuvent être utilisées afin de faire ressortir de manière automatique des liens de similarité entre les mots et d’observer des phénomènes linguistiques récurrents. Ces méthodes, appelées analyses distributionnelles, reposent sur la présupposition suivante : les unités qui se combinent avec des mots similaires se ressemblent également sur le plan sémantique, ce qui permet alors de regrouper les unités sémantiquement reliées sur la base de leurs cooccurrences. Ainsi, dans le cas des termes climate change et réchauffement planétaire, qui partagent des cooccurrents similaires dans leurs langues respectives (par exemple, reduce/réduire, slow/ralentir, contribute to/contribuer à), le terminologue peut en déduire qu’ils correspondent à un sens ou un concept similaire. Le cas échéant, il serait alors en mesure d’évaluer la ressemblance pour décider s’il s’agit d’un couple d’équivalents. Les termes sont, de ce fait, analysés en contexte, ce qui aide à concevoir leur sens en réseau. De nombreux chercheurs mettent en application cette approche, particulièrement dans le domaine de la lexicographie.
La constitution de réseaux de sens dans un domaine, jumelée à la reconnaissance et à l’analyse de termes et de leurs équivalents au niveau linguistique, permet au terminologue d’apprivoiser plus facilement des domaines et leur structure et, parallèlement, à l’utilisateur de ressources terminologiques d’avoir accès à une information à la fois sémantique et linguistique. Par exemple, le modèle dit de la sémantique des cadres, dont la perspective est basée sur la cognition, présuppose que le langage humain et la manière de se représenter le monde sont indissociables. Plus spécifiquement, l’organisation des unités terminologiques d’un domaine de spécialité à l’intérieur de cadres sémantiques facilite la compréhension des concepts, en plus de fournir les termes et la phraséologie nécessaires pour traduire. Ainsi, le tableau ci-dessous montre la représentation du concept de discharge telle qu’elle apparaît dans une ressource terminologique sur l’environnement, le DicoEnviro.
En analysant les différents sens reliés au terme discharge en anglais (l’agent qui fait l’action, le patient qui subit l’action, le résultat de cette action) et la façon dont l’action qui s’y greffe se manifeste dans les exemples cités (par exemple, par polluter, pollutant), on met en lumière de l’information pertinente non seulement pour comprendre le sens du terme, mais aussi pour répérer des liens de (quasi-)synonymie et d’équivalence avec d’autres termes (par exemple, dump, spill et déverser).
La description de ces données peut alors prendre plusieurs formes. Dans le cadre sémantique ci-dessus, le concept est représenté notamment au moyen d’une définition, de contextes, et de listes de rôles sémantiques et de relations avec d’autres concepts connexes (par ex. : spilling). Le modèle propose aussi dans des sections prévues à cet effet les quasi-synonymes et des équivalents en français. Ces données seraient utiles au langagier (traducteur ou rédacteur) pour se familiariser avec les concepts d’un domaine, tout en y rattachant les termes qu’il utilisera par la suite, notamment pour varier son expression tout en assurant une cohérence sémantique.
En ce qui a trait à l’analyse très fine des distinctions sémantiques qui s’impose lorsqu’il s’agit de décrire des cadres sémantiques comme celui qui est illustré ci-dessus, de nombreuses étapes doivent actuellement être effectuées manuellement. Afin de réduire le coût de telles analyses, et, donc, la préparation de ressources de ce type, des méthodes qui contribueront à systématiser et à automatiser des éléments de l’analyse et de la description, qui pourront être ultérieurement appliquées à tous types de corpus, sont en cours d’élaboration.
En résumé, l’automatisation de l’activité terminologique vise, entre autres, à soulager les terminologues des tâches routinières et répétitives qu’ils ont dû accomplir manuellement pendant longtemps. La compilation automatique de corpus, l’extraction de termes et la recherche automatique de relations sémantiques sont largement facilitées par le recours à des outils informatiques toujours plus performants. L’approche computationnelle en terminologie se donne également un objectif ambitieux, soit celui d’exploiter de grands volumes de données, d’une part pour en extraire automatiquement des connaissances et d’autre part pour repérer plus aisément les structures des champs du savoir. Comme la terminologie fait partie intégrante du processus de conceptualisation des connaissances, le rôle du terminologue n’est pas près de disparaître; au contraire, il y a lieu de croire que la profession se révélera plus importante que jamais avec le temps.
Auger, P., Drouin, P., et L’Homme, M.-C. 1991. Automatisation des procédures de travail en terminographie. META 36-1, Presses de l’Université de Montréal, p. 121-128, Montréal (Canada).
Azoulay, D. 2017. Frame-based Knowledge Representation Using Large Specialized Corpora. In Proceedings of the AAAI Spring Symposium on Computational Construction Grammar and Natural Language Understanding, Stanford University (CA).
Barrière, C. 2010. TerminoWeb : recherche et analyse d’information thématique, In Actes de la conférence TALN’2010 (Traitement Automatique des Langues Naturelles), Montréal (Canada).
Bernier-Colborne, G. 2016. Aide à l’identification de relations lexicales au moyen de la sémantique distributionnelle et son application à un corpus bilingue du domaine de l’environnement. Thèse de doctorat présentée à l’Université de Montréal, Montréal (Canada).
Delisle, J. 2008. La terminologie au Canada : histoire d’une profession. Linguatech, Brossard (Canada).
DiCoEnviro. Le dictionnaire fondamental de l’environnement. Consulté le 18 février 2017.
L’Homme, M.-C. 2004. La terminologie : principes et techniques. Presses de l’Université de Montréal, Collection Paramètres, Montréal (Canada).
Daphnée Azoulay est étudiante à la maîtrise en traduction à l’Université de Montréal. Son mémoire porte sur la construction automatique de grands corpus spécialisés visant la création automatique de cadres sémantiques.