C’est l’aptitude de l’esprit humain à inférer qui a amené les chercheurs, dès les années 1950, à vouloir s’inspirer de la structure du cerveau pour construire des systèmes qui auraient les mêmes capacités. Les débuts difficiles ont tôt fait de mettre en lumière les limites des premiers systèmes neuronaux. Il faut attendre la fin des années 1990 pour que l’augmentation continue des capacités de calcul des ordinateurs fasse renaître l’intérêt envers les réseaux neuronaux. De nos jours, ceux-ci sont utilisés dans de nombreux domaines allant de la reconnaissance faciale à la conduite autonome de véhicules routiers, en passant par la traduction automatisée.
À l’instar du cerveau, un réseau neuronal artificiel tire sa force de la richesse des interconnexions d’éléments simples. Des fonctions mathématiques, généralement non linéaires, jouent ici le rôle des neurones en propageant dans le réseau le résultat de la combinaison des signaux d’entrée. On peut voir ici le schéma simplifié d’un réseau de neurones comportant une seule couche cachée (les couches d’entrée et de sortie ne sont pas comptées). Pour une tâche complexe, on comptera de nombreuses couches constituées de nombreux neurones. Le type de tâche et la manière dont sont représentées les données à traiter influent grandement sur la configuration du réseau final. Ainsi, on peut se douter qu’un réseau neuronal utilisé pour reconnaître des tumeurs cancéreuses à partir de radiographies sera bien différent d’un autre utilisé pour traduire un texte de l’anglais au chinois. L’expérience et l’intuition des concepteurs jouent également un rôle important dans ces choix. Cependant, peu importe la tâche, on procède essentiellement de la même manière pour entraîner le réseau. Une fois le but établi — repérer une tumeur cancéreuse dans une radiographie par exemple —, on devra trouver la manière dont seront présentées les données brutes. On veut en quelque sorte « mathématiser » les données, leur attribuer une forme utilisable par le réseau. Afin d’entraîner le système, on voudra avoir accès à une grande quantité de données source, des radiographies de tumeurs par exemple, dont on aura préalablement déterminé si elles montrent des tumeurs cancéreuses ou bénignes.
L’entraînement s’effectue grosso modo comme suit. On présente les données une à une au système et on mesure l’écart entre le résultat obtenu par le réseau et le résultat attendu. Si la réponse est « bonne » on recommence avec un autre échantillon sans rien changer. Dans le cas contraire, on modifie légèrement les paramètres internes du réseau de neurones par un mécanisme de rétroaction et on recommence avec un nouvel échantillon. À terme, lorsque le problème est correctement posé et l’architecture adéquate, les paramètres vont « converger », l’erreur passera sous un seuil acceptable (défini à l’avance) le réseau sera alors entraîné. C’est l’apprentissage machine. Quand le réseau neuronal comporte de nombreuses couches cachées, on parlera d’apprentissage profond.
Les applications de l’intelligence artificielle sont de plus en plus nombreuses, mais peu de gens savent que la traduction automatisée a été, et demeure, un domaine d’application très important pour la recherche sur les réseaux neuronaux.
À qualité égale, les avantages offerts par la traduction automatisée sont manifestes : délais de livraison réduits (des millions de mots peuvent être traduits en quelques minutes), disponibilité en tout temps du service grâce à Internet et prix défiant toute concurrence1. Mais qu’il soit automatisé ou non, le travail de traduction devrait ultimement donner le même résultat. Humains et machines ne peuvent procéder de la même manière et donc la question qui est au cœur du problème de la traduction automatisée est la suivante : à l’aide d’algorithmes, comment peut-on produire des traductions machines aussi bonnes que celles produites par un être humain?
Les systèmes de traduction automatique statistique ou TAS (en l’anglais « Statistical Machine Translation ») ont dominé le monde de la traduction automatisée pendant près de trente ans. Ils tirent leur origine de travaux menés par IBM dans les années 1980-1990. L’approche de la TAS consiste en la modélisation du procédé de la traduction en une série d’étapes successives et en l’élaboration d’un modèle statistique pour chacune de ces étapes.
Ainsi, pour traduire une phrase, il faut d’abord la découper en une série de courts segments (les mots). Chaque traduction possible d’un mot se voit ensuite attribuer une certaine probabilité. Par exemple « grid » peut être traduit par « grille » ou encore « réseau » (comme dans « electric grid »). On attribue ensuite des probabilités aux différents alignements possibles. Ainsi, on assigne une probabilité supérieure à « réseau électrique » et inférieure à « électrique réseau ». Les modèles sont raffinés et d’autres étapes s’ajoutent, mais au final, ce sont les méthodes multicentenaires des mathématiques statistiques qui donnent leur pouvoir d’inférence à la TAS.
Les systèmes de TAS ont été les premiers à bénéficier des techniques d’apprentissage machine et des réseaux neuronaux. Là où, auparavant, on comptait sur quelques techniques algorithmiques et une bonne dose d’intuition pour construire les différentes distributions de probabilités utilisées à chaque étape de la TAS, on utilise aujourd’hui des réseaux de neurones pour « apprendre » ces distributions de probabilité en leur fournissant de nombreux exemples.
On assiste, depuis 2012 environ, à l’arrivée d’une méthode entièrement basée sur l’apprentissage machine et l’utilisation de réseaux neuronaux. La traduction automatique neuronale ou TAN (en l’anglais Neural Machine Translation ou NMT). Avec la TAN, la traduction n’est plus considérée comme une suite d’étapes déterminées, mais plutôt comme un seul procédé global qui fait correspondre une suite de mots (la version originale) à une autre (la traduction). Les systèmes de TAN sont entraînés directement à l’aide de millions d’exemples provenant de corpus bilingues, et finissent ainsi par « apprendre » en quoi consiste une bonne traduction. L’accent n’est plus mis ici sur le raffinement d’un modèle de traduction, mais plutôt sur l’architecture même du système de traduction. En ce sens, nous sommes bel et bien entrés dans l’ère de la traduction machine.
Les avantages de la TAN sur la TAS sont importants. Les systèmes de TAN ne nécessitent pas de modèle complexe de traduction et font appel uniquement à des techniques qui sont bien connues et en constante évolution. La TAN, qui n’en est pourtant qu’à ses balbutiements, est déjà en service depuis 2016 chez Google. Systran, le doyen des systèmes commerciaux, a aussi fait de la TAN la pierre angulaire de son architecture à cette époque.
La méthode la plus couramment utilisée est le score BLEU pour Bilingual Evaluation Understudy. Le score BLEU est un algorithme qui mesure la différence entre une traduction produite par un système de traduction automatisé et une traduction de bonne qualité effectuée par un être humain. Le score obtenu se situe entre 0 (atroce) et 100 (la traduction machine est en tout point identique à la traduction humaine de référence). Une des forces du score BLEU est qu’il reflète assez fidèlement le jugement d’un être humain. Plus la traduction sera jugée « bonne » plus le score BLEU sera élevé en général. L’inconvénient majeur de l’algorithme c’est qu’il tend à uniformiser les traductions produites par les systèmes automatiques, car bien qu’il puisse exister d’innombrables traductions de bonne qualité pour une phrase donnée, le score BLEU n’en considère qu’un petit nombre.
Enfin des travaux ont montré que certains systèmes de TAN ont construit une représentation sémantique intermédiaire au cours de leur apprentissage et que cette représentation a ensuite été utilisée par le système pour traduire entre des paires de langues pour lesquelles il n’avait jamais été entraîné2.
Les systèmes automatisés ont tout de même des lacunes. La qualité des traductions produites par des systèmes automatiques basés sur l’apprentissage machine dépend de la disponibilité de corpus à la fois volumineux et de grande qualité. Ces derniers sont difficiles à obtenir pour des paires de langues peu fréquentes. Tous les systèmes automatisés éprouvent des difficultés à traduire des formules rares ou des particularités régionales. Enfin, il est difficile pour ces systèmes de rendre les nuances et les subtilités de l’expression humaine. L’utilisation de systèmes de TA entraîne nécessairement une certaine uniformisation, voire un appauvrissement, de la traduction. À l’heure actuelle, les meilleurs systèmes de traduction automatisés performent encore moins bien qu’un traducteur humain chevronné.
Cependant, les systèmes automatiques produisent rapidement et à des coûts dérisoires de grands volumes de traductions. Et si les systèmes de TAS ont eu la cote pendant près de trente ans, les systèmes purement neuronaux sont en passe de les remplacer et ce, à peine cinq ans après leur apparition. Qui sait de quoi les systèmes de TAN seront capables dans dix ans?
Assurément, on peut s’attendre à une augmentation de la qualité des traductions. La concurrence pour les traducteurs humains pourrait être féroce. On verra certainement une augmentation de la demande pour la postédition, particulièrement dans les domaines de traduction technique. Ironiquement, la postédition sera vraisemblablement utilisée afin d’améliorer les systèmes de TAN en fournissant davantage de traductions de qualité. Les grandes entreprises de traduction déploieront des systèmes à l’interne ou les incorporeront à leurs activités dans le but d’augmenter leur productivité en réduisant le coût par mot. En revanche, les domaines de spécialité tels la traduction littéraire et l’adaptation publicitaire, de même que tout ce qui est nouveau, rare ou inédit devrait demeurer la chasse gardée des traducteurs humains.
Stéphane Trinh détient un baccalauréat en génie électrique de l’Université de Sherbrooke. Il crée des logiciels pour le cinéma et la projection vidéo depuis plus de 20 ans. Il s'intéresse également à l'intelligence artificielle et aux réseaux neuronaux.
1. À titre d’exemple, pour 20 $ par million de caractères, Google mettra son service de traduction automatique à votre disposition.
2. Voir https://ai.googleblog.com/2016/11/zero-shot-translation-with-googles.html