Jean-Claude Carrière : « Peut-être même faudrait-il envisager […] une histoire générale de l’erreur et de l’ignorance, en plus de la laideur. » p. 127
Umberto Eco : « […] Il y a le faux qui résulte de l’imitation de quelque chose qualifié d’original et qui doit conserver avec son modèle une identité parfaite. Il y aura entre l’original et le faux une indiscernabilité, au sens leibnizien. L’erreur réside ici dans le fait d’attribuer une valeur de vérité à quelque chose qu’on sait être erroné. » p. 130
— Umberto Eco, Jean-Claude Carrière et Jean-Philippe de Tonnac. N’espérez pas vous débarrasser des livres. Paris, Grasset.
Depuis quelques années, il ne se passe pas un mois sans que se manifestent des erreurs dans les textes à traduire que j’utilise en classe ou dans le cadre des travaux dirigés de maîtrise. Pourtant, il s’agit toujours d’articles de synthèse du domaine biomédical, dûment publiés dans des revues scientifiques ayant pignon sur rue, avec examen par les pairs et indexés dans PubMed. On y observe notamment des erreurs de syntaxe, des mots manquants, parfois des passages incompréhensibles témoignant d’une rédaction hâtive (ou d’une traduction « sauvage »?).
En parallèle, la qualité des textes biomédicaux traduits ou rédigés en français ne cesse de se dégrader. Ainsi, telle monographie de médicament traduite comporte des passages illisibles; tel ouvrage de référence autrefois traduit remarquablement voit ses éditions les plus récentes marquées par un discours appauvri, « collé à l’anglais »; tel autre, antérieurement traduit par un collectif de scientifiques chevronnés, l’est maintenant par une seule personne ayant visiblement « post-édité »1 une traduction automatique; certains nouveaux fascicules de telle encyclopédie, en principe une ressource incontournable, laissent transparaître l’anglais sous le français, que ce soit sous l’angle de la syntaxe ou de la terminologie : l’on se demande si les auteurs n’ont pas, à l’instar de M. Jourdain faisant de la prose sans le savoir, traduit comme ils pouvaient des passages tirés d’articles rédigés en anglais. Au point où je ne sais plus, parfois, quoi recommander comme lectures aux étudiant.e.s. La rupture semble s’être irrémédiablement opérée dès 2018, dans la foulée de la mise en œuvre de la traduction neuronale, en 2017. Et je ne parle pas des textes traduits ou rédigés automatiquement, parfois illisibles, qui fleurissent sur Internet – ceux-là sont bannis des ressources acceptées dans les travaux, mais ils encombrent le cyberespace et sont sans aucun doute « moissonnés » par les robots alimentant les grands modèles de langage (GLM, pour l’anglais large language models, ou LLM).
L’engouement et l’excitation qui entourent l’avènement des GLM et de « l’intelligence artificielle » (IA) générative masquent difficilement l’accélération d’un processus de dégradation rampant et inquiétant. Si la traduction automatique produit des textes se caractérisant par un respect de la syntaxe et de l’orthographe, certes, mais farcis d’erreurs souvent observées chez les débutant.e.s (erreurs de sens, omissions, ajouts, etc.), l’IA produit quant à elle des erreurs de fond, touchant aux notions et à l’organisation des connaissances.
Ne passons pas sous silence le fait que si l’on demande à ChatGPT si la terre est plate ou si les vaccins à ARN messager tuent à grande échelle ou modifient le génome, l’outil va produire des réponses reflétant le consensus scientifique et refusera d’entériner des affirmations habituellement qualifiées de « complotistes ». Comment des balises sont intégrées à l’IA générative reste néanmoins un mystère pour le commun des mortels, puisque, lorsqu’on lui signale une erreur, ChatGPT « s’excuse » platement et « remercie » son « interlocuteur » de l’avoir fait. En tout cas, mes tentatives d’induire ChatGPT en erreur sur des théories farfelues se sont révélées infructueuses, et c’est heureux – encore que… jusqu’où ce type de contrôle pourrait-il aller? Qui décide?
De fait, une étude mentionnée par l’UNESCO en mars 20242 indique que de grands modèles de langage d’OpenAI (GPT-3.5 et GPT-2) et de Meta (Llama2) véhiculent des propos racistes, homophobes et sexistes. Il faut donc louer la publication de la Recommandation sur l’éthique de l’intelligence artificielle de l’UNESCO (20233), mais la boîte de Pandore est peut-être d’ores et déjà irrémédiablement ouverte, car les outils d’IA générative se multiplient sans véritable contrainte. Par ailleurs, certain.e.s chercheur.e.s pensent que la production de textes, par l’IA générative, à partir de textes qu’elle a elle-même produits mène à un effondrement des modèles (model collapse), dans la mesure où les écarts générés par chaque cycle de production ne font que s’amplifier à l’infini4.
À côté de ces problèmes connus, j’aimerais mettre l’accent sur une source d’erreur que j’estime très dangereuse et qui guette tout particulièrement les langagiers et langagières soumis à des pressions excessives en matière de rentabilité : les contraintes de temps les incitent en effet à avoir recours aux GLM pour obtenir des renseignements ou des précisions notionnelles. Devant un passage évoquant des concepts inconnus ou nouveaux, grande est en effet la tentation d’interroger ChatGPT pour s’épargner des recherches longues ou laborieuses dans des ouvrages de référence ou dans des articles scientifiques pas toujours faciles d’accès. Mais, on va le voir, les réponses peuvent se révéler incorrectes ou floues. Le problème, c’est qu’il faut soit les connaître à l’avance pour pouvoir repérer les erreurs, soit perdre un temps considérable à les vérifier.
Parmi les nombreux tests auxquels j’ai soumis ChatGPT5 ces deux dernières années, je citerai deux cas. Le premier concerne la demande suivante : « Liste toutes les dénominations se terminant en -ome, construites sur le modèle de génome. » ChatGPT fournit, correctement, une liste de termes tels que transcriptome, protéome, métabolome, etc., mais finit par déraper :
La difficulté, ici, est l’incertitude dans laquelle se trouve le lecteur, même le plus aguerri : est-ce que ChatGPT a repéré un usage totalement inhabituel (ce qui est souligné ci-dessus), ou bien est-il en train « d’halluciner »? La réponse ne pourrait-elle pas influencer non seulement la traduction, mais aussi la rédaction, et ainsi générer des usages fautifs? La vérité est que carcinome et tératome n’ont rien à voir, étymologiquement, avec protéome, métabolome, etc. et que la proposition de ChatGPT est totalement farfelue.
Dans un autre cycle de questions du même type, ChatGPT avait fourni dermatome, avec la définition suivante : « Ensemble des cellules et structures de la peau d’un organisme, particulièrement étudié en dermatologie et biologie de la peau. » L’analogie avec génome avait incité l’outil à proposer une définition commençant par « Ensemble de… ». Ma réponse : « Les sens que je connais [pour dermatome] sont :
Ce à quoi ChatGPT rétorque : « Tu as tout à fait raison! Le terme « dermatome » est effectivement bien plus couramment utilisé dans les sens que tu mentionnes […]. Dans ce contexte, je me suis trompé en l’incluant comme un terme désignant un ensemble biologique similaire aux autres
-omes. Contrairement aux néologismes en biologie systémique (comme génome, protéome, etc.), dermatome ne suit pas cette logique d’ensemble biologique ou systémique, mais fait partie du vocabulaire médical traditionnel. »
Autrement dit, pour juger de la réponse de ChatGPT, il faut en savoir plus que lui – ce qui est contreproductif, on en conviendra. Inévitablement, on se heurte, même avec une longue expérience dans un domaine, à des questions qui finissent par gruger le temps. Dans sa réponse, ChatGPT évoque la biologie systémique et contraste une « logique d’ensemble biologique ou systémique » au « vocabulaire médical traditionnel » : l’opposition est curieuse. Génome, protéome, etc., sont des termes qui émergent des avancées de la biologie moléculaire et des développements technologiques connexes, mais leur rattachement en tant que néologismes de la biologie systémique (un domaine assez complexe à définir, ce qui demande du temps à cerner) est loin d’être évident. Et qu’est-ce que le « vocabulaire médical traditionnel »? Le concept est douteux. Dermatome est un terme d’anatomie, point final.
Après avoir demandé à ChatGPT d’oublier les interrogations précédentes (une pratique recommandée), j’ai cherché à le piéger : « Donne-moi la définition de dermatome, par analogie à génome. » Réponse : « Un dermatome, par analogie au génome, pourrait être défini comme l’ensemble des informations ou des caractéristiques spécifiques qui régissent la structure, la fonction et la distribution des nerfs cutanés dans une région donnée de la peau. Voici un parallèle entre les deux termes : le génome est l’ensemble du matériel génétique (ADN) d’un organisme, incluant les informations nécessaires pour son développement et son fonctionnement. Le dermatome désigne une zone de la peau innervée par une seule racine nerveuse provenant de la moelle épinière. Ainsi, un dermatome regroupe les informations anatomiques et neurologiques associées à une région spécifique de la peau, tout comme le génome contient les informations génétiques globales d’un organisme. En termes simples, le dermatome serait le « territoire nerveux cutané », là où le génome est le « territoire génétique » de l’organisme. »
La métaphore du territoire est séduisante, mais si elle peut s’appliquer au dermatome, elle ne correspond nullement aux conceptualisations métaphoriques du génome. Je l’interroge : « Es-tu bien sûr que c’est juste? » La réponse de l’outil : « Je comprends tes doutes. La comparaison entre dermatome et génome est un peu délicate, car ils appartiennent à des domaines différents : le dermatome est une notion anatomique et neurologique, tandis que le génome relève de la biologie moléculaire et de la génétique. […] Donc, contrairement à ce que pourrait suggérer l’analogie avec le génome, le dermatome ne se réfère pas à un ensemble d’informations génétiques, mais plutôt à une région anatomique. Le lien que je faisais dans la définition précédente est plus conceptuel qu’exact. Le génome reflète la globalité de l’information génétique d’un organisme, alors que le dermatome est une simple subdivision anatomique reliée à la distribution des nerfs. » Dans cet « échange », ChatGPT n’a nullement contribué à clarifier ma pensée, il l’a obscurcie. Il a proposé des mises en relations et des modes de conceptualisation inadéquats, et son explication sur un lien « plus conceptuel qu’exact » ne veut pas dire grand-chose.
L’espace manque pour que je puisse détailler le second cas et je ne mentionnerai que rapidement la confusion autour de la notion de gène : les explications fournies par ChatGPT mélangent la notion de gène en tant qu’unité statistique utilisée en génétique des populations, et la notion de gène en tant que séquence d’ADN encodant les informations nécessaires à la synthèse des protéines. La distinction est, de fait, complexe, mais lorsque l’on affirme que l’outil peut servir de tuteur d’apprentissage, je frémis… Elle est cependant essentielle, mais elle exige une grande attention et de solides notions de base en biologie pour bien la comprendre.
Comme on peut le constater en effectuant différents tests, sur des concepts qui ne soulèvent pas a priori de contestations violentes comme la question de la terre plate ou celle des vaccins, il est assez facile de faire dire à l’IA générative, volontairement ou non, n’importe quoi. On argumentera que tout réside dans l’art des « invites » (prompts), mais à cela je répondrai qu’il est préférable de savoir comment aller chercher de l’information fiable (et, le cas échéant, prendre connaissance des controverses scientifiques) que de perdre son temps à gérer du flou.
Le problème de fond est qu’il faut avoir une connaissance d’expert pour pouvoir relever les incohérences générées par l’outil. Le caractère très anthropomorphique des interactions est en fait déstabilisant : la configuration des GLM est faite de telle manière que l’on a l’impression de dialoguer avec un autre être humain. Ô combien il eût été préférable de parler d’outils traitant des données massives sur des bases probabilistes (mais, je vous l’accorde, c’est très très peu attirant), plutôt que de les anthropomorphiser à outrance!
Notons qu’aucune référence bibliographique n’est spontanément fournie par ChatGPT. Pour le moment, si on les demande explicitement, les références sont souvent douteuses (voire carrément inventées) ou vieillies (par exemple, ChatGPT donne la référence de l’édition de 2002 de Molecular Biology of the Cell [4e édition], et non la toute dernière, parue en 20226). On peut donc se demander quel est l’avantage de passer par les GML lorsque l’on a besoin d’éclaircissements notionnels, alors que l’interrogation raisonnée d’un catalogue de bibliothèque universitaire reliée à WorldCat7 sera bien plus efficace et précise pour trouver des sources dont on connaîtra les auteurs, le lieu et l’année de publication, etc. C’est une véritable « hygiène » de la recherche documentaire qu’il faut adopter si l’on veut éviter de sombrer dans la confusion.
Mais les choses vont vite. Parmi les avancées récentes en matière d’IA générative, il faut mentionner que l’on se tourne vers des petits modèles de langage (PML, pour l’anglais small language models, ou SML) : plus spécifiques, moins coûteux, plus « agiles ». Par ailleurs, l’association de modèles de langage (petits ou grands) à des techniques de récupération d’information au sein de corpus de textes complémentaires (GAR, ou génération augmentée par la récupération, pour retrieval-augmented generation, ou RAG) devrait améliorer les performances de l’IA générative. Cette approche, d’ores et déjà implantée parmi différents outils de TAO, comme Logiterm (Terminotix)8, est sans aucun doute prometteuse pour permettre l’exploitation des corpus de documentation colligée au cours de la vie professionnelle et pour améliorer les performances de la TA.
Mais attention, encore une fois, il faut faire preuve de vigilance et comprendre les limites. Testant un des derniers outils offerts par Google, NoteBookLM9 (qui s’appuie sur le GLM Gemini 1.5), j’ai pu constater la facilité avec laquelle on peut créer un compte, téléverser des documents et poser des questions instantanément. La promesse (des plus étranges…) est de « réfléchir mieux sans réfléchir plus ». Voyons cela. J’ai ainsi téléversé une douzaine d’articles en accès libre traitant du cholestérol, tirés de la revue médecine/sciences. De manière intéressante, à ma question : « Donne-moi la source qui parle du cholestérol dans les astrocytes », NoteBookLM retrouve le bon article10 instantanément (parmi les documents téléversés), et fournit de plus un résumé. Mais ensuite les choses se gâtent : les hypothèses se transforment en affirmations, la contextualisation disparaît, l’outil accumule les dérives de sens et les omissions. Par exemple, quand les auteurs de l’article énoncent : « il est probable que, au cours du développement postnatal, les neurones réduisent ou arrêtent la synthèse du cholestérol et l’importent à partir d’un sous-type de cellules gliales, les astrocytes, qui sécrètent le cholestérol dans des particules de lipoprotéines riches en apolipoprotéine E (ApoE) », NoteBookLM résume : « Les neurones, qui ont besoin de cholestérol pour former des synapses fonctionnelles, l’importent des astrocytes via ces lipoprotéines. » Nulle part, dans le résumé construit par la machine, il n’est fait mention du fait qu’il s’agit d’hypothèses en cours d’étude portant sur le développement des synapses après la naissance, que les résultats présentés ont été obtenus dans des cultures in vitro et que la démonstration in vivo n’est pas encore faite. Conclusion : bravo pour la possibilité de trouver des sources référencées dans un corpus constitué par les soins de l’utilisateur, mais un pouce vers le bas pour la fiabilité des résumés générés sur les textes constituant le corpus.
Que conclure? Je suis fermement convaincue que les modèles de langage (et l’IA en général) participent à la crise du savoir actuelle : la génération d’énoncés, sinon carrément faux, tout au moins flous, contribue à la perte des repères en matière de connaissances scientifiques, alors que l’accès à Internet devrait au contraire faciliter l’accès aux sources faisant autorité les plus à jour. Il faut espérer que l’IA continuera d’évoluer vers une réelle transparence des sources utilisées ou aidera efficacement au repérage des meilleures d’entre elles. Les bibliothèques, en tant que sanctuaires de sources soigneusement sélectionnées par des personnes compétentes rompues à l’exercice, sont désormais concurrencées par des outils jusqu’à ce jour incontrôlables, mais dont le marketing est imbattable (la promesse d’en faire moins, ce qui n’est pas du tout certain). En attendant, se contraindre à adopter des stratégies de recherche documentaire et notionnelle sûres et efficaces exige un réel effort : mais ne pas le faire constitue un handicap absolu dans nos métiers.
Faut-il rejeter l’IA? Certes non, mais de grâce faisons preuve de prudence. Il faut souligner que les institutions d’enseignement se préoccupent de son usage et on compte, à ce jour, plus de 90 guides visant à l’encadrer, notamment ceux de l’UNESCO11. Toutefois, des anecdotes troublantes émergent dans le monde de l’éducation – la liste est longue, je ne citerai que deux situations. La première est constituée par les doubles injonctions adressées aux chercheur.e.s, aux enseignant.e.s et aux étudiant.e.s : « collaborez [sic : oui, encore la métaphore anthropomorphique] avec l’IA, mais attention elle peut vous répondre n’importe quoi »; « continuez à cultiver l’esprit critique, mais attention, vous risquez d’être ringard ». Tant pis pour moi, à l’instar de la professeure et poétesse Mélanie Dusseau, je plaide pour qu’une réflexion critique soutenue nous amène à une utilisation saine et raisonnée de l’IA12, à savoir celle qui partirait des besoins de personnes utilisatrices bien informées, sachant ce qu’elles font et pourquoi. On a le droit de refuser une application de l’IA si on la juge inadéquate : l’enjeu cognitif pour les générations futures est majeur. La deuxième situation parle du rapport de force qui est en train de s’installer entre IA et humains : quand un.e étudiant.e prétend que l’IA a raison contre ses enseignant.e.s, n’a-t-on pas atteint le paroxysme du socioconstructivisme, dans lequel les derniers ne font « qu’accompagner » les premiers dans la « construction de leur savoir »? Certes, mais quel savoir?
Sylvie Vandaele est professeure titulaire au Département de linguistique et de traduction de l’Université de Montréal.
1) Comme d’autres professionnel.le.s et chercheur.e.s, je pense en fait que ce terme ne devrait plus être employé (Vandaele 2022) : il fait référence à une époque où la post-édition correspondait à l’étape miroir de la pré-édition. Il s’agit de révision, ni plus, ni moins. On peut parler de révision de sorties machines.
Vandaele, Sylvie. « La traduction automatique neuronale : un problème de temporalité ». Hermēneus, vol. 22, 2022, p. 1-15. http://doi.org/10.24197/her.24.2022.1-15
2) UNESCO. Intelligence artificielle : l’UNESCO alerte sur les stéréotypes racistes, sexistes et homophobes | ONU Info. 7 mars 2024. https://news.un.org/fr/story/2024/03/1143812
3) UNESCO. Recommandation sur l’éthique de l’intelligence artificielle. 2023. https://unesdoc.unesco.org/ark:/48223/pf0000386510_fre
4) Shumailov, Ilia, et al. « AI Models Collapse When Trained on Recursively Generated Data ». Nature, vol. 631, no 8022, 2024, p. 755-59. https://doi.org/10.1038/s41586-024-07566-y
5) Requêtes faites en septembre 2024 avec ChatGPT4o, qui est devenu gratuit en mai 2024. https://chatgpt.com/
6) Alberts, Bruce, et al. Molecular Biology of the Cell. 7e édition, W. W. Norton & Company, 2022. https://umontreal.on.worldcat.org/oclc/1343639890
7) « À propos de WorldCat.org ». WorldCat.org, s.d., https://search.worldcat.org/about
8) Terminotix. https://terminotix.com/index.asp?id=10&lang=fr
9) NotebookLM | Note Taking & Research Assistant Powered by AI. https://notebooklm.google/. L’outil a aimablement été porté à mon attention par G. R. Aureano, Dép. de sciences politiques, U. de Montréal.
10) Claudepierre, Thomas, et Frank W. Pfrieger. « Nouveaux aspects du cholestérol dans le système nerveux central ». médecine/sciences, vol. 19, no 5, 5, mai 2003, p. 601-05. https://doi.org/10.1051/medsci/2003195601
11) UNESCO. Recommandation sur l’éthique de l’intelligence artificielle. 2023, UNESCO Bibliothèque numérique. https://unesdoc.unesco.org/ark:/48223/pf0000386510_fre
Miao, Fengchun, et Mutlu Cukurova. AI competency framework for teachers. 2024, Paris, UNESCO. https://doi.org/10.54675/ZJTE2084.
Miao, Fengchun, et Kelly Shiohira. AI competency framework for students. 2024, Paris, UNESCO. https://doi.org/10.54675/JKJB9835.
12) Dusseau, Melanie. « Burn It Down: A License for AI Resistance ». Inside Higher Ed, 12 novembre 2024. https://www.insidehighered.com/opinion/views/2024/11/12/burn-it-down-license-ai-resistance-opinion; cet article m’a aimablement été signalé par G. R. Aureano.