Internet, Web et moteurs de recherche, retour aux sources

Un peu plus tôt cette année, le Web a soufflé ses vingt-cinq chandelles. Des quelques sites répertoriés en 1989, nous sommes passés à plusieurs milliards de pages remplies d’information, accessibles en quelques clics seulement. Comment s’y retrouver ?

Par Geneviève Has

Le World Wide Web recèle à la fois trésors et fumisteries, parfois évidentes, parfois difficiles à identifier comme telles. Comment s’y retrouver ? La question est d’autant plus prégnante que le Web s’est imposé comme un outil essentiel pour les traducteurs. Pour ces derniers, la recherche d’information, mais surtout la capacité de trier l’information disponible et d’en tirer profit, sont devenues des habiletés essentielles et reviennent souvent à savoir comment chercher une aiguille dans une botte de foin. En effet, jamais, de l’histoire humaine, n’avons-nous eu accès aussi facilement à tant d’information. Dans ce contexte, le problème de l’autorité, de la fiabilité et de la crédibilité des sources en ligne présente de nouveaux défis et mérite que l’on en tente la généalogie.

Naissance du réseau des réseaux

On peut retracer les premières esquisses d’Internet en 1962, dans une série de mémos au Massachusetts Institute of Technology (MIT).
L’idée était simple : concevoir un système suffisamment redondant et décentralisé pour s’assurer qu’aucune attaque ne puisse le neutraliser complètement (nous sommes, rappelons-le, en pleine Guerre froide). Un autre article du MIT, de 1961 celui-là, propose la technique qui permettra la mise sur pied du système : la communication par paquets. L’innovation tient à la fragmentation de l’information et à la multidirectionnalité du transfert¹.

C’est donc à l’automne 1969 que le réseau ARAPANET voit le jour, reliant quatre universités américaines. Au cours des années 1970, le réseau continue de grandir, particulièrement grâce à un nouveau protocole de communication, le TCP/IP². Quelques années après ses débuts, ARPANET est constitué de 19 ordinateurs, mais de nombreux autres ne peuvent toujours pas y être connectés. Le protocole alors en usage, le NCP³, ne permet la mise en réseau que de certains ordinateurs présentant des configurations bien précises. Le TCP/IP est conçu expressément pour pallier cette faiblesse. Robert Kahn, le concepteur du protocole, insiste sur quatre principes fondateurs, qui ont toujours cours aujourd’hui⁴ :

Chaque réseau devait être autonome et pouvoir se connecter sans avoir à modifier son architecture.
La communication devait suivre le principe du meilleur effort. La retransmission de paquets d’information perdus devait être facile à réaliser.
Les réseaux devaient être reliés par des routeurs indépendants, qui ne stockeraient aucune information.
Il ne devait y avoir aucun contrôle global du réseau sur le plan opérationnel.

Le Web, point tournant

Internet n’a pas son pareil pour l’échange libre d’information, mais y accéder n’offre pas encore d’expérience cognitive palpitante. Les utilisateurs accèdent bien sûr à des bases de données, s’échangent des textes et se partagent du temps de processeur, mais la principale utilisation du réseau, de ses premiers pas jusqu’au tournant des années 1990, reste le courriel. Les choses allaient changer avec l’invention du World Wide Web par Tim Berners-Lee (CERN) en 1989. La plateforme (une parmi d’autres à l’époque) offre une interface visuelle, simplifiée et facile d’utilisation, qui, tirant parti de concepts et d’outils⁵ comme les liens hypertextes (pour naviguer d’une page à l’autre), les URL (Uniform Resource Locator, pour localiser une page sur le réseau) et le HTML (Hypertext Markup Language, pour uniformiser la présentation de l’information), propose une expérience visuelle et sonore uniforme (peu importe l’utilisateur), et donne à Internet le moyen de se faufiler dans la vie de millions, puis de milliards d’utilisateurs. Le Web auquel nous avons accès est donc un portail vers l’information contenue dans les entrailles d’Internet.

Ainsi, la nature d’Internet, conditionnée par son infrastructure et par la volonté de ses pionniers, en fait un espace libre des contraintes traditionnelles de l’échange d’information et surtout de la publication. S’il est facile de déterminer la fiabilité et l’autorité d’une source papier à l’aide d’attributs matériels (impression, reliure, organisation interne) ou de signes convenus (renommée de la maison d’édition, de la collection ou de l’auteur), l’information que l’on trouve sur Internet n’est pas de facto régie par de tels impératifs, reconnus et attestés par des centaines d’années d’usage comme c’est le cas pour l’imprimerie. En effet, n’importe qui a toute liberté de publier un document sur Internet et de le rendre accessible via le Web, pourvu qu’il puisse s’y connecter. Des conventions équivalentes sont tout de même en émergence, comme la présentation des pages et de l’information, l’utilisation de noms de domaines dédiés ou la renommée de l’auteur ou de l’éditeur en dehors du Web. Cependant, ces critères ne sont utiles que si l’on atteint la page en question.

Pour arriver à des ressources dont on ne connaît pas l’adresse, ou qui ne sont pas liées à des pages que l’on connaît déjà, les moteurs de recherche offrent une aide inestimable. Ils parcourent sans relâche les réseaux pour en recenser le contenu, puis le présenter à l’utilisateur en fonction de sa requête. Les premiers moteurs de recherche étaient en fait des annuaires. Les moteurs utilisaient l’information contenue dans les balises et dans le texte des sites pour les inclure et les classer dans leur répertoire. Cette méthode, si elle a le mérite d’être transparente, prête le flanc à des manipulations, et trop souvent, les pages retournées par une requête donnée ne contenaient aucune information pertinente.

Le géant aux pieds d’argile

Ce problème en tête, les fondateurs de ce qui allait devenir Google ont mis au point un algorithme sophistiqué, PageRank, couplé à un nouveau moteur de recherche. Sergey Brin et Lawrence Page, alors étudiants à Stanford, posent le problème ainsi : le Web est un ensemble de documents hétéroclites, sans aucun standard commun. Qui plus est, rien ni personne ne peut contrôler ce qui se publie sur Internet. Si l’on ajoute à cela le fait que les moteurs de recherche ont une grande influence sur la direction du trafic sur Internet, certaines compagnies mal intentionnées ont beau jeu de manipuler les résultats de recherche⁶. Pour répondre à cette difficulté, PageRank propose une pondération en fonction des liens qui pointent vers une page donnée (voir image).

Représentation de l’importance relative d’une page en fonction de ses liens
(Source : http://en.wikipedia.org/wiki/File:PageRanks-Example.svg)

Malgré des mises à jour fréquentes (Panda, Penguin, Caffeine et récemment Hummingbird), de tels algorithmes, s’ils semblent produire de bons résultats au premier coup d’œil, posent tout de même problème pour rendre compte de l’autorité d’un document. Evelyne Broudoux, spécialiste des questions d’autorité sur le Web, affirme que les pratiques de pointage entre les sites Internet ne sont pas nécessairement un indicateur d’autorité ou de fiabilité, notamment parce que la présence d’un lien n’indique pas obligatoirement l’endossement d’un contenu, et parce que le site vers lequel on pointe n’a pas nécessairement donné son autorisation d’être lié. En d’autres mots, « Popularité a été confondue ici avec autorité⁷. »

Point de salut ?

Faudrait-il en conclure que la partie est perdue ? Que la masse d’information étouffera toute tentative de domestication ? Non. Ce bref retour en arrière montre qu’Internet et le Web sont demeurés, comme l’avaient voulu leurs concepteurs et premiers adeptes, des lieux favorisant les échanges et la circulation de l’information, mais que cette liberté a un prix. En effet, la responsabilité de séparer le bon grain de l’ivraie n’est pas l’apanage de l’institution ou d’un pouvoir central, mais repose dans les mains de l’usager. Le modèle Google, comme celui de nombre de moteurs de recherche, ne propose pas de curation ni d’évaluation des contenus, simplement un indice de fréquence et de « popularité ». Ce n’est que l’utilisateur qui peut ultimement décider de l’autorité, de la fiabilité et de la crédibilité d’une source en ligne. Et idéalement, la partager.

Geneviève Has a terminé ses études de premier cycle en traduction, après un bref détour en linguistique, pour ensuite compléter une maîtrise en traductologie à l’Université Concordia. Son mémoire portait sur les technologies langagières canadiennes et sur l'histoire de leur développement. Au cours de ses études, elle a enseigné les technologies de la traduction, la localisation et les théories de la traduction à l'Université Concordia. Elle entame un doctorat en traductologie à l’Université d’Ottawa.

En somme, les données sont découpées en « paquets », lesquels contiennent en en-tête les informations de l’émetteur et du destinataire.
Le paquet voyage alors dans le réseau, passant par les nœuds, qui l’envoient dans la direction générale du destinataire. Si l’un des paquets s’éloigne par inadvertance de sa destination, le nœud peut le rerouter en utilisant ses informations d’adressage.
TCP/IP : Transmission Control Protocol/Internet Protocol. Il s’agit en fait d’une suite de protocoles, qui interagissent sur plusieurs niveaux. C’est le protocole toujours en usage aujourd’hui. Pour une bonne introduction à ces outils, voir : www.tcpipguide.com/free/.
NCP : Network Control Protocol.
http://www.internetsociety.org/internet/what-internet/history-internet/brief-history-internet
http://www.nethistory.info/History%20of%20the%20Internet/web.html
http://infolab.stanford.edu/~backrub/google.html, section 3.2.
http://hal.archives-ouvertes.fr/docs/00/12/07/10/PDF/AutorInfo.pdf (p. 1-2)

Partage :