Imprimer
Partage :

Le Web sémantique ou la technologie du traitement de la connaissance

Par Michel Héon, Ph. D.

Pour faire suite à la question d’une participante à l’atelier sur le transfert des connaissances en milieu de travail que j’ai eu l’honneur de présenter lors du dernier congrès de l’OTTIAQ, j’ai cru bon écrire cet article sur le Web sémantique pour démystifier un peu cette notion assez nouvelle.
« Le Web » est un outil qui fait maintenant partie intégrante de nos vies et de nos pratiques professionnelles. La diffusion de l’information et l’interconnexion des ordinateurs du monde entier nous ouvrent l’accès à une banque immense de savoir qui va bien au-delà de ce qu’un humain est en mesure d’absorber. Pour gérer ce savoir, il est nécessaire d’utiliser un outil de traitement de l’information qui permet de trouver au moment opportun l’information adéquate qui est adaptée à nos besoins et à nos intérêts. Le Web sémantique (aussi appelé Web 3.0) a été inventé pour répondre à ce besoin.

Une extension du Web actuel

Le Web sémantique n’est pas un Web à part, il est une extension du Web actuel. Il ajoute une couche de fonctionnalité à ce qui existe déjà, qu’il s’agisse d’applications accédant à de l’information locale propre à une application informatique, de l’information que l’on trouve dans un site intranet ou de l’information dans Internet. Au cœur de cette fonctionnalité, on retrouve la sémantique : la science du sens, de la signification. En sémantique, un texte rédigé dans un document est considéré comme étant un ensemble de mots organisés selon une séquence donnée. Une idée, qui peut dans certains cas être contextualisée, sous-tend chaque mot ou chaque séquence de mots. L’informatique, elle, se définit comme la science du traitement automatique de l’information. En informatique classique, le traitement de l’information a lieu au niveau du texte rédigé, alors que dans l’informatique sémantique, le traitement de l’information est réalisé au niveau de la sémantique du texte. Pour effectuer ce traitement, la sémantique du document à traiter doit être représentée dans un « document de sémantique » du texte. En Web sémantique, le document de la sémantique du texte se nomme une ontologie.

L’ontologie forme la pierre angulaire du Web sémantique. Du point de vue de l’informaticien, le Web Ontology Language (OWL) et le Ressource Description Framework (RDF) sont deux langages informatiques complémentaires qui servent à décrire une ontologie. Ces langages sont normalisés par le World Wide Web Consortium (W3C), un organisme international qui élabore les normes d’usage du Web. Par exemple, c’est le W3C qui a vu à la normalisation du HTML, d’usage très répandu dans le Web. Du point de vue des études classiques, l’ontologie joue un tout autre rôle. En philosophie, elle est : l’étude de l’être en tant qu’Être. L’« être » minuscule est l’entité physique existant sur Terre, tandis que l’« Être » majuscule correspond à l’entité métaphysique liée à l’« être ». En logique (une branche de la philosophie), elle s’emploie pour représenter la connaissance (l’Être) d’un domaine de discours (l’être). En ce sens, l’ontologie est une théorie de la représentation des connaissances. C’est en cela qu’il est possible de la relier à la discipline de l’informatique. Ainsi, pour le logicien qui souhaite modéliser un domaine de connaissances et pour l’informaticien qui souhaite opérationnaliser le modèle de connaissances, l’ontologie devient le langage commun qui permet de représenter les concepts, les propriétés, les faits, les axiomes logiques et les règles décrivant un domaine particulier.

web semantique

Donc, il y a d’un côté le Web, avec l’ensemble de ses renseignements en formats hétérogènes (document texte, audio, vidéo) d’usages divers (informationnel, relationnel, communicationnel, décisionnel, etc.) et de l’autre, la sémantique, qui permet, grâce à l’ontologie, de donner un sens
à l’information du Web. Mais à quoi tout cela peut-il servir ?

Et la traduction, dans tout ça ?

Le Web sémantique est une discipline relativement jeune. Cependant, certains usages commencent à se manifester et pourraient s’étendre au domaine de la traduction.

  • 1. Intégration de données : l’intégration de données vise à incorporer des données de différents formats et de différentes provenances afin de les rendre accessibles en un seul point d’entrée. On peut envisager l’intégration de corpus de traduction provenant de plusieurs fournisseurs en un seul corpus accessible par l’intermédiaire d’une interface Web.
  • 2. Découverte et classification des ressources : chaque ressource est référencée par une ontologie qui lui sert de métadonnée. La métadonnée permet d’associer les attributs qui relient les ressources entre elles. La découverte et la classification consistent à optimiser le processus de recherche automatique en utilisant une requête qui porte sur la métadonnée de la ressource plutôt que sur son contenu. S’il existe un terme, un énoncé ou un texte complet dans une langue donnée qui est décrit par une ontologie, il est possible d’associer ce terme, cet énoncé ou ce texte à ses correspondances ontologiques dans une ou plusieurs autres langues. La correspondance peut être exploitée par le traducteur afin de stimuler sa créativité. La recherche peut aussi cibler un domaine précis, limitant ainsi le nombre de réponses obtenues. Cette limitation élimine les résultats peu pertinents.
  • 3. Agent logiciel intelligent : directement lié au domaine de l’intelligence artificielle, cette forme d’usage fait appel à la puissance de calcul de l’ordinateur pour parvenir à des conclusions à partir d’inférences sur des énoncés. Par exemple, devant l’énoncé Fido est un chien, l’agent intelligent pourrait conclure que Fido est un animal. L’ontologie renferme l’encodage de la connaissance. Ce type d’agent est employé pour concevoir des systèmes d’aide à la prise de décisions, d’assistance à la déduction (par exemple en tant qu’outil d’aide au diagnostic) ou encore d’assistant expert à la résolution de problèmes. En traduction, un agent intelligent pourrait aider en traduisant de façon semi-automatique un texte donné en proposant plusieurs possibilités de traduction et en indiquant à l’utilisateur la règle linguistique qui justifie telle ou telle autre traduction. Ce type d’assistant logiciel servirait également à la construction automatisée des métadonnées associées à chaque ressource d’un corpus. L’assistant s’emploierait alors pour réaliser une interprétation automatique d’un texte afin d’en extraire la sémantique et de l’ajouter à une ontologie. Le traducteur n’aurait alors qu’à valider le contenu de l’ontologie.

Universaliser la connaissance humaine

Au cours des dernières années, les technologies du traitement automatique de l’information et du Web ont connu un essor et un développement considérables. À preuve, les outils d’usage courant comme Google, Yahoo ou Bing pour optimiser les recherches sur le Web ; Antidote pour l’aide à la correction de texte ; Amazon qui propose des livres en fonction des achats précédents ou encore les réseaux sociaux qui retrouvent automatiquement les amitiés du passé. Tous ces outils témoignent d’un mouvement de fond qui tend à globaliser et à universaliser la connaissance humaine. La profession de traducteur, qui fait appel au traitement de l’information et de la connaissance, a déjà subi et continuera de subir de profondes mutations. Les sociétés occidentales se posent en tant que sociétés du savoir, ce qui impose aux professions évoluant dans ces sociétés de s’adapter à ces nouveaux paradigmes si elles désirent rester compétitives par rapport aux sociétés émergentes. Même si on reconnaît que la qualité de la production issue d’un processus automatique n’atteindra jamais le degré de qualité de ce qu’un humain peut accomplir, il n’en demeure pas moins que la technologie du traitement automatique de l’information fait désormais partie de nos vies. Un nouveau défi se pose alors aux professionnels. Ce défi consiste à revoir les méthodes de travail afin d’y inclure l’usage de ces nouveaux outils. Comme le métier de typographe a dû se redéfinir dans les années 1980 avec l’arrivée du traitement de texte, les professions axées sur le traitement de la connaissance se redéfiniront. Il importe donc à chaque acteur d’entreprendre une réflexion sur la nature et la forme de son travail afin de profiter des nouvelles avenues et de saisir les occasions pour ainsi exercer une influence favorable sur la profession de traducteur.

Michel Héon est titulaire d’un doctorat en informatique cognitive et président fondateur de Cotechnoe. Il est spécialiste de l’usage de l’informatique à des fins de représentation et du traitement automatique de la connaissance. Il possède plus de vingt ans d’expérience en recherche et développement d’applications informatiques en intelligence artificielle. Il est l’auteur et le concepteur d’OntoCASE, un logiciel de cartographie des connaissances et de conception d’ontologies pour le Web sémantique.


Partage :