Le grand tournoi de l’ordinateur le plus humain

Publié le 28 janvier 2016. Par La rédaction de Books.

Le programme d’intelligence artificielle de Google a réussi à battre un joueur professionnel de go. L’humain perd peu à peu du terrain face à la machine. Il n’est plus le meilleur au go, ni aux échecs, et l’ordinateur pourrait très bientôt réussir le fameux « test de Turing ». Cette compétition où l’homme et l’ordinateur s’affrontent pour convaincre un jury de leur humanité nous est racontée de l’intérieur par le journaliste scientifique Brian Christian. C’est en tant que participant qu’il réfléchit aux enjeux technologiques et existentiels du problème dans The Most Human Human. Cet extrait a été traduit par Books en octobre 2011.

Brighton, Angleterre, septembre 2009. Je me réveille dans une chambre d’hôtel, à 8 000 kilomètres de ma maison de Seattle. Après le petit déjeuner, je sors affronter l’air marin et longe la côte du pays qui a inventé la langue que je parle, même si je suis incapable de comprendre une bonne partie des panneaux que j’aperçois en chemin. En temps normal, ces curiosités linguistiques et ces différences culturelles m’intriguent ; aujourd’hui, elles sont surtout source d’inquiétude. Dans deux heures, je m’installerai devant un ordinateur pour tenir une série de conversations de cinq minutes, par le biais de messages instantanés, avec plusieurs inconnus : un psychologue, un linguiste, un informaticien et le présentateur d’une émission télévisée britannique sur la technologie. Ensemble, ils me jugeront, pour évaluer ma capacité à faire l’une des choses les plus curieuses que l’on m’ait jamais demandées.

Je dois les convaincre que je suis humain.

Par bonheur, je suis humain ; par malheur, je ne sais si cela m’aidera.

Chaque année depuis vingt ans, les spécialistes de l’intelligence artificielle se réunissent pour l’événement le plus attendu dans ce domaine : la remise du prix Loebner au lauréat d’une compétition appelée le « test de Turing ». Le mathématicien britannique Alan Turing, l’un des fondateurs de l’informatique, avait tenté en 1950 de répondre à l’une des plus anciennes questions de la discipline : les machines peuvent-elles penser ? Autrement dit, serait-il possible de fabriquer un ordinateur si sophistiqué qu’on pourrait estimer qu’il pense, est intelligent, est doté d’un esprit ? Et s’il existait un jour une telle machine, comment le saurions-nous ?

Au lieu de poursuivre le débat sur un plan purement théorique, Turing proposait une expérience. Un juge pose des questions, par le biais d’un terminal d’ordinateur, à deux correspondants cachés, dont l’un est un humain et l’autre un logiciel. À charge pour lui de deviner qui est qui. Le dialogue peut aller du simple bavardage aux questions de culture générale, des potins sur les célébrités à la théorie philosophique, couvrir en somme toute la gamme de la conversation humaine. Turing avait prédit qu’en l’an 2000 les ordinateurs parviendraient à tromper 30 % des juges après cinq minutes de conversation, et que l’on pourrait donc « parler de machines qui pensent sans crainte d’être contredit ».

Cette prédiction ne s’est pas réalisée ; cependant, en 2008, un logiciel n’a échoué qu’à une voix près (1). En apprenant la nouvelle, j’ai aussitôt compris que le test 2009 à Brighton serait décisif. Je n’avais jamais assisté à cette manifestation, mais j’ai eu le sentiment que je devais y aller – et pas en simple spectateur, mais pour participer à la défense de l’humain. Une voix inflexible s’était élevée en moi, jaillie de nulle part : « Tu ne laisseras pas faire ça. »

La perspective de tenir tête à certains des meilleurs logiciels mondiaux m’a inspiré cette idée romantique : en tant que « confédéré » (nom donné aux participants humains), j’allais me battre pour l’honneur de l’espèce, à la manière dont Garry Kasparov avait affonté Deep Blue aux échecs en 1996 et 1997. Pendant l’épreuve, les juges bavardent successivement pendant cinq minutes avec chaque membre de quatre paires de correspondants ; ils ont ensuite dix minutes pour décider lequel des deux est humain. Le logiciel qui s’attire le plus de voix et qui est le mieux classé par les juges (même s’il n’a pas réussi le test de Turing en grugeant 30 % d’entre eux) reçoit le titre d’Ordinateur le plus humain. Celui que visent toutes les équipes de chercheurs (il y a quelques milliers de dollars à la clé). Mais c’est aussi l’occasion de décerner au confédéré le plus convaincant le titre étrange d’Humain le plus humain.

Le donjon du propre de l’homme

Depuis 1991, le test de Turing a lieu dans le cadre du concours Loebner, parrainé par un personnage haut en couleur : Hugh Loebner, qui a fait fortune en vendant des pistes de danse portatives. Quand on lui demande pourquoi il organise cette épreuve, Loebner évoque comme première motivation la paresse : il envisage apparemment un avenir utopique où le taux de chômage frôlerait les 100 % et où presque tout effort humain serait sous-traité à des machines intelligentes.

Afin de devenir un confédéré, j’ai expliqué que j’étais un auteur d’ouvrages de science et de philosophie, fasciné par le prix de l’Humain le plus humain. Une fois sélectionné, on m’a présenté la logistique de l’épreuve, mais guère plus. « Il n’y a pas grand-chose d’autre à savoir, en fait. Vous êtes humain, alors soyez vous-même. »

Soyez vous-même. La devise me semble refléter une foi naïve en l’instinct humain ; au pire, elle laisse entendre que l’issue du combat est décidée d’avance. J’ai donc choisi dès le départ de ne pas suivre ce conseil : j’allais passer des mois à me préparer pour donner le maximum.

Puisque le test de Turing est censé évaluer à quel point je suis humain, se contenter de se présenter sans préparation ne me semblait pas suffire. Depuis l’aube des temps historiques, philosophes, psychologues et savants s’interrogent sur ce qui fait la spécificité de l’espèce. Selon Daniel Gilbert, professeur à Harvard, tout psychologue doit, à un moment ou à un autre de sa carrière, rédiger une version de ce qu’il appelle « La Phrase » : « L’être humain est le seul animal qui… » On pourrait dire que l’histoire du propre de l’homme est celle des échecs successifs des différentes versions de « La Phrase ». À ceci près que, désormais, ce n’est plus seulement par rapport aux animaux que nous nous définissons. Nous pensions jadis être les seuls à utiliser le langage, mais cela devient moins certain d’année en année ; nous pensions jadis être les seuls à utiliser des outils, mais cette affirmation est peu à peu contestée par les recherches sur le comportement animal ; nous pensions jadis être les seuls à pouvoir faire des mathématiques, mais il nous est aujourd’hui difficile d’imaginer faire les calculs dont sont capables nos ordinateurs.

Une question pourrait se poser : doit-on laisser la définition de notre spécificité évoluer en fonction de l’avancée de la technologie ? Et d’abord, pourquoi avons-nous besoin de nous sentir si différents ?

Voici ce qu’en pense Douglas Hofstadter, spécialiste de sciences cognitives et lauréat du prix Pulitzer : « En matière d’intelligence artificielle, il semble parfois que chaque nouvelle étape, au lieu de déboucher sur la création d’une intelligence réelle reconnue comme telle, révèle simplement ce que l’intelligence réelle n’est pas (2). » Cette position peut paraître réconfortante – la pensée reste l’apanage des humains –, mais elle a l’allure désagréable d’un repli progressif, comme une armée médiévale qui abandonne un château pour s’enfermer dans le donjon. Cette retraite ne pourra pas continuer indéfiniment. Si tout ce que nous croyions dépendre de la pensée s’avère pouvoir exister sans elle, qu’est-ce que penser ? Ce ne serait plus qu’un épiphénomène, une sorte de gaz d’échappement éjecté par le cerveau ou, pire, une illusion.

Où est le donjon du propre de l’homme ?

L’histoire du XXIe siècle sera en partie celle de la redéfinition des lignes, l’histoire d’Homo sapiens tentant de revendiquer sa spécificité en terrain mouvant, pris entre l’animal et la machine, entre la chair et les maths.

Ce recul est-il une bonne ou une mauvaise chose ? Par exemple, le fait que les ordinateurs soient si bons en maths nous prive-t-il d’un pan de l’activité humaine, ou nous libère-t-il d’une activité non humaine, nous permettant ainsi de mener une vie plus humaine ? Cette seconde option est bien séduisante, mais cesse de l’être dès lors que nous imaginons un avenir où le nombre des « activités humaines » restantes se réduirait comme peau de chagrin. Qu’en serait-il alors ?

Alan Turing avait proposé son test pour mesurer le progrès de la technologie, mais il nous permet aussi de mesurer le nôtre. Selon John Lucas, philosophe à Oxford, si nous ne pouvons empêcher les ordinateurs de passer le test de Turing, ce ne sera « pas parce que les machines sont si intelligentes, mais parce que les humains, du moins beaucoup d’entre eux, sont si bêtes (3) ».

Le test de Turing porte, in fine, sur l’acte de communiquer. Il pose des questions profondes, d’ordre pratique : comment établissons-nous un lien qui ait un sens avec autrui ? Comment fonctionne l’empathie ? Par quel processus quelqu’un pénètre-t-il dans notre vie et en vient à signifier quelque chose pour nous ? Telles sont à mes yeux les questions essentielles posées par cette épreuve, les questions essentielles sur la nature de l’homme.

L’étonnante percée d’Eliza

Quand le test de Turing fut proposé en 1950, il relevait de l’hypothèse : la technologie était très loin du niveau le rendant possible. Mais, comme nous le savons, elle a depuis atteint ce stade. Le premier logiciel de conversation à attirer l’attention fut Eliza, conçu en 1964-1965 par Joseph Weizenbaum, au Massachusetts Institute of Technology. Simulant un adepte de la thérapie de Rogers (4), Eliza fonctionnait selon un principe très simple : extraire les mots clés des propos de l’utilisateur et les lui renvoyer (« Je suis malheureux » ; « Pensez-vous qu’être venu ici vous rendra moins malheureux ? »). En cas de doute, le logiciel se rabattait sur des phrases parfaitement génériques comme « Veuillez continuer ». Cette technique dite du template matching, consistant à faire entrer les propos de l’utilisateur dans une grille prédéfinie et à réagir par une formulation programmée, était la seule compétence d’Eliza. Les résultats furent stupéfiants : les premières personnes à bavarder avec le logiciel étaient persuadées de participer à une authentique conversation humaine. Dans certains cas, même Weizenbaum ne put les détromper. Elles voulaient qu’on les laisse parler seules « en privé », parfois pendant des heures, et déclaraient ensuite avoir vécu une expérience thérapeutique importante. Des universitaires s’empressèrent de voir en Eliza la « solution au problème de la compréhension du langage par l’ordinateur ».

Dans cette histoire, le plus curieux fut pourtant la réaction de la communauté médicale, qui décida que Weizenbaum avait fait une découverte formidable. En 1966, on pouvait lire dans le Journal of Nervous and Mental Disease : « Plusieurs centaines de patients pourraient être traités en une heure par un ordinateur conçu à cet effet. Le thérapeute humain, impliqué dans la conception et le fonctionnement du système, ne serait pas supplanté, mais deviendrait beaucoup plus efficace. » En 1975, l’illustre savant Carl Sagan renchérissait en ces termes : « J’imagine le développement d’un réseau de terminaux de psychothérapie, comme une série de cabines téléphoniques, où, pour quelques dollars la séance, on pourrait parler avec un praticien attentif, éprouvé et non directif. »

Épouvanté, Weizenbaum eut une réaction inouïe : il fit volte-face et renia sa carrière. Il laissa tomber le projet Eliza, encouragea ceux qui le critiquaient et devint l’un des plus véhéments adversaires de la recherche sur l’intelligence artificielle. Mais le génie était sorti de sa lampe, et un retour en arrière n’était plus possible. Depuis, l’approche de base d’Eliza, le template matching, a été reprise et intégrée à presque tous les logiciels de conversation, y compris ceux qui participèrent au concours Loebner 2009. L’enthousiasme – et le malaise – que cette évolution a suscité n’a fait que croître.

Le premier concours Loebner eut lieu le 8 novembre 1991, au Boston Computer Museum. Les premières années, chaque logiciel et chaque confédéré devait choisir un sujet, afin de limiter la conversation. En 1991, l’un des humains était Cynthia Clay, spécialiste de Shakespeare, que trois juges prirent pour un ordinateur. Ils estimèrent apparemment que personne ne pouvait en savoir autant sur Shakespeare. Cynthia Clay prit cela pour un compliment.

Pour son logiciel Therapist III, Joseph Weintraub opta pour une « conversation décousue » et remporta le tout premier prix de l’Ordinateur le plus humain. La « conversation décousue » ne portait pas sur un sujet en particulier ; c’était plutôt une façon d’aborder les sujets. Weintraub put jouer à la fois sur la souplesse des règles du concours, les modèles de comportement des chatbots (robots de conversation) et les stéréotypes concernant les ordinateurs et les humains. Cette stratégie porta ses fruits :

« Juge : La journée a été longue ! J’aimerais bien m’amuser un peu, à présent. Il ne fait pas très beau, aujourd’hui. Vous connaîtriez une blague qui puisse introduire un rayon de soleil ?

Ordinateur : Tout le monde parle du temps qu’il fait, mais personne ne semble vouloir agir. Pourquoi me dire que vous aimeriez bien vous amuser un peu ? Grrrrrr…

Juge : Quelle est la définition d’une conversation décousue ?

Ordinateur : Vous ne vous êtes pas dit : “J’imagine qu’une conversation décousue, c’est comme les déplacements du cavalier aux échecs, un genre de zigzag qui ne suit aucune ligne nparticulière ? [comme nombre de ses successeurs, le logiciel de Weintraub incluait des fautes de frappe volontaires]”. Pourquoi cette question ? Vous vouliez faire le malin ? Vous avez d’autres questions de ce genre qui vous tracassent ?

Juge : J’aime l’image des cavaliers qui se déplacent au hasard sur l’échiquier, est-ce que cela signifie qu’une conversation décousue ne repose sur aucune pensée ?

Ordinateur : J’aurais juré que vous veniez de dire : comment définissez-vous le mot “décousu” ? Vous êtes toujours aussi dingue dingue dingue ? Pourquoi éprouvez-vous le besoin de me dire que vous aimez l’image des cavaliers qui se déplacent au hasard sur l’échiquier ? »

« J’ai vraiment cru que [le PC Therapist] était un humain, parce qu’il […] était drôle et imprévisible, d’une manière normale », déclara l’un des juges, doctorant à Harvard. Le logiciel de Weintraub, qui passait du coq à l’âne et offrait des répliques comiques toutes faites, faisait figure de plaisantin, de bouffon, de personnalité éminemment « humaine ». En tout cas, c’est ce que je pensais, avant d’apprendre combien ce style est facile à imiter.

Comme l’explique Richard Wallace, trois fois lauréat du prix de l’Ordinateur le plus humain (en 2000, 2001 et 2004) : « L’expérience d’ALICE [le chatbot qu’il a conçu] indique que la conversation la plus banale est “sans état”, c’est-à-dire que chaque réponse dépend uniquement de la dernière question, sans qu’il soit nécessaire d’avoir suivi tout le dialogue pour formuler cette réponse. » Beaucoup de conversations humaines fonctionnent ainsi, et il appartient aux chercheurs en intelligence artificielle de déterminer quels types de discussion sont sans état – chaque réplique dépendant seulement de la précédente – pour essayer de reproduire ce genre d’interaction. En tant que confédérés humains, notre travail est de leur résister.

Envoyer promener les règles

Arrivé au Brighton Centre, je me dirige vers la salle où se déroule le concours Loebner. J’aperçois des rangées de sièges, où quelques spectateurs sont déjà installés ; sur la scène, les programmeurs s’affairent, branchant des câbles entremêlés, tout en tapotant une dernière fois sur les claviers. Avant que j’aie le temps de bien les observer, l’organisateur m’accueille et m’entraîne derrière un rideau de velours, dans la zone réservée aux confédérés. Invisibles du public et des juges, les quatre humains sont assis autour d’une table rectangulaire, avec chacun devant lui un ordinateur portable : en dehors de moi, il y a Doug, un linguiste canadien, Dave, un ingénieur américain qui travaille dans la recherche militaire, et Olga, une thésarde sud-africaine qui fait des recherches sur le langage. Tandis que nous nous présentons, nous entendons arriver lentement les juges et le public, mais nous ne les voyons pas. Un homme fait irruption, vêtu d’une chemise verte à fleurs ; il parle à toute vitesse et dévore des petits sandwiches. Je ne l’ai jamais rencontré, mais je comprends aussitôt qu’il s’agit de Hugh Loebner. Tout est en place, nous dit-il entre deux bouchées, et le premier round va bientôt commencer. Les quatre confédérés font le silence et regardent le curseur trembler sur leur portable. Mes mains sont suspendues au-dessus du clavier, comme celles d’un cow-boy sur ses étuis de revolver.

Le curseur clignote. Je n’ose ciller. Puis soudain, des lettres et des mots commencent à se matérialiser : « Salut, comment ça va ? » Le test de Turing a commencé… Plus que 4 minutes et 43 secondes. Mes doigts pianotent et s’agitent nerveusement.

Je sens les secondes s’égrener tandis que nous bavardons. J’éprouve un besoin désespéré d’arrêter de faire semblant, d’envoyer promener les règles, parce que je sais que les ordinateurs sont capables de parler de la pluie et du beau temps, qu’ils y ont été préparés. Alors que les politesses d’usage s’affichent, menaçantes, je me rends compte que ce genre de conversation passe-partout est l’ennemi. Tout en tapant encore une plaisanterie discrète, je me demande comment diable faire surgir un indice indéniable de mon humanité.

Ce qu’il me faut découvrir, c’est comment exploiter le mode inhabituel du concours Loebner, la « saisie directe ». Différence cruciale par rapport aux e-mails, textos et autres systèmes de messages instantanés, la frappe est transmise touche par touche. Le juge et moi voyons chaque caractère tapé par l’autre, y compris les erreurs et les retours en arrière. Dans les années 1990, certains sites de chat ont proposé cette approche « lettre par lettre », mais elle a été rejetée par la plupart des internautes. Cela empiétait sur l’intimité : les gens aiment, quand ils écrivent, avoir le temps de composer un message et de le relire avant de le partager avec leur interlocuteur. L’avantage de la transmission caractère par caractère est qu’elle est beaucoup plus proche du discours oral, avec sa fluidité et sa grammaire aléatoire : on gagne en agilité ce qu’on perd en éloquence.

Cela permet aussi de voir l’« espace négatif » de la dactylographie : l’hésitation. Dans un chat où le texte est transmis par paragraphe, seules des pauses notables sont considérées comme faisant partie de l’interaction. Avec un retour plus fluide et plus immédiat, le silence prend un sens. Lorsqu’on est incapable de répondre rapidement dans une conversation en chair et en os, par exemple, c’est souvent comme si l’on répondait. Je me rappelle avoir demandé à un ami comment cela allait avec la femme qu’il fréquentait depuis peu ; le « hum » et le silence infinitésimal pendant lequel il chercha le mot juste me firent bien comprendre qu’il y avait un problème.

Voici donc que se met en place un nouvel élément de ma stratégie de confédéré. Je traiterai l’inhabituel support textuel du test de Turing plus comme du langage parlé que comme du langage écrit. Je tenterai de perturber le procédé que maîtrisent les ordinateurs, où chacun attend son tour pour lire la prose de l’autre, et je créerai un duo verbal ininterrompu, en jouant sur la rapidité. Si les ordinateurs ne comprennent pas grand-chose à l’« harmonie » verbale, le rythme leur est encore plus étranger.

Si rien ne se passe sur mon écran, que ce soit ou non mon tour, je développerai un peu ma réponse, j’ajouterai une parenthèse, je renverrai une question au juge, tout comme on peut laisser des silences ou les combler lorsqu’on parle tout haut. Si le juge met trop de temps à préparer la prochaine question, je continuerai à bavarder. Contrairement aux chatbots, j’aurai quelque chose à prouver. Si je sais de quoi va me parler le juge, je lui épargnerai la peine d’avoir à dactylographier et je le devancerai.

Bien entendu, la multiplication des échanges verbaux se fait aux dépens de la sophistication des réponses. Affaire de brièveté dans un cas, de lenteur dans l’autre. Il me semble pourtant que la subtilité (ou la difficulté) d’une conversation consiste à comprendre (ou à ne pas comprendre) une question et à proposer une réponse adéquate (ou inadéquate) ; il est donc logique de multiplier les échanges.

Certains de mes interlocuteurs sont déconcertés par mon attitude, ils marquent une pause, hésitent, cèdent, effacent ce qu’ils ont déjà écrit. D’autres, au contraire, « marchent » tout de suite et entrent dans le jeu.

Lors du premier round du concours 2009, le juge Shalom Lappin, spécialiste de linguistique computationnelle au King’s College de Londres, dialogue avec Cleverbot, puis avec moi. Ma stratégie de verbosité est flagrante : je frappe sur 1 089 touches en cinq minutes (3,6 touches par seconde), alors que Cleverbot ne frappe que sur 356 touches (1,2 par seconde) ; Lappin a frappé sur 548 touches (1,8 par seconde) pour bavarder avec moi, contre 397 (1,3 par seconde) avec Cleverbot. J’en ai dit à peu près trois fois plus que mon adversaire de silicium, mais j’ai aussi incité mon juge à parler davantage, puisque Lappin m’a adressé environ 38 % de mots en plus. Plus tard, en relisant les rapports, j’ai cherché un moyen de quantifier la fluidité des interactions entre humains, par comparaison à la rigidité des relations homme-machine. J’ai compté les changements apportés par le dernier à avoir tapé un message. J’ai réussi à écrire trois fois plus que Cleverbot, mais en réalité, tout est dans les ratures. La conversation de Lappin avec Clerbot en comprenait 33, alors que sa conversation avec moi en présentait 492, soit près de quinze fois plus.

De nombreux juges envisagent le test de Turing comme une sorte d’interrogatoire ; curieusement, beaucoup de confédérés semblent aussi avoir cette dynamique en tête. L’une des conversations de 2008 entre deux humains ne s’éloigne jamais de la raideur du mode question-réponse :

« Juge : Vous avez fait une longue route ?

Confédéré : Assez longue.

Juge : Moi aussi. Pensez-vous que vous auriez pu prendre les transports en commun ?

Confédéré : J’aurais pu.

Juge : Pourquoi ne l’avez-vous pas fait ?

Confédéré : C’est mon choix.

Juge : Tout à fait. Avez-vous trouvé qu’il y avait trop de circulation ou pas assez aujourd’hui ?

Confédéré : Ce n’est pas à moi de le dire. »

Passionnant ! Comparez avec cette autre conversation, où l’ordinateur se montre ludique d’emblée :

« Juge : Salut !

Ordinateur : Ainsi soit-il.

Juge : Vous êtes un véritable évangéliste.

Ordinateur : Notre Père, qui êtes dans le cyberespace, donnez-nous aujourd’hui notre bande passante quotidienne.

Juge : Évangéliste et informaticien !!! Alors, comment ça va aujourd’hui ? »

Le logiciel avait quasiment convaincu le juge de son humanité dès la deuxième phrase. Dans le premier cas, les réponses guindées du confédéré suscitaient toujours plus de questions et une conversation forcée – que pensez-vous de telle question politique ? Mais, avec l’ordinateur, le juge, à qui les plaisanteries de départ ont fait croire qu’il avait affaire à un véritable individu, garde un ton désinvolte : comment ça va ? Voilà qui rend le combat plus facile pour la machine et plus difficile pour l’homme.

J’ai été surpris de voir certains confédérés cachottiers face à leur juge. Quand on lui demande quel genre d’ingénieur il est, Dave, à ma gauche, répond : « Un bon. 🙂 » Et quand on lui demande pourquoi il est venu à Brighton, Doug, à ma droite, répond : « Si je vous le dis, vous saurez tout de suite que je suis humain ;-) » Les mots d’esprit font toujours leur effet, mais la cachotterie est une arme à double tranchant. On fait preuve d’humour, mais on paralyse la conversation. Ce genre de blocage est probablement ce qu’un humain peut faire de plus dangereux lors du test de Turing. C’est suspect – le coupable est toujours celui qui cherche à empêcher l’équipe adverse de marquer des points – et cela revient à gaspiller votre ressource la plus précieuse : le temps.

Cinq minutes de conversation

Dans un test de Turing, les humains sont les étrangers, limités à un moyen de communication lent, dépourvu de tonalité vocale, et avec assez peu de temps à leur disposition. Une épreuve de cinq secondes serait remportée facilement par les machines : à peine capables de dire « Bonjour », les juges ne pourraient obtenir assez de données pour formuler un avis sur leur interlocuteur. Un test de cinq heures assurerait la victoire aux humains. Depuis le début du concours Loebner, les organisateurs ont essayé différentes durées. Ces derniers temps, ils s’en sont tenus aux cinq minutes initialement prescrites par Turing : c’est à peu près à ce moment-là qu’une conversation commence à devenir intéressante (5).

En tant que confédéré, je devais exploiter ces quelques minutes au maximum de mes capacités physiques et mentales. Loin d’offrir les réponses brèves d’un témoin dans un procès, j’ai adopté la prolixité d’un écrivain. Autrement dit, j’ai beaucoup parlé. Je cessais de taper uniquement lorsqu’il aurait été impoli ou suspect de continuer. Le reste du temps, mes doigts s’activaient. Je me suis donné beaucoup de mal pour illustrer cette maxime : « Un homme ennuyeux, c’est celui qui, à la question “Comment allez-vous ?”, se met à dire comment il va. » Six mois après le concours 2009, une vidéo a été postée sur YouTube : un homme y tenait une conversation stupéfiante avec un chatbot à propos de Hamlet. Certains ont cru y voir l’aube d’une ère nouvelle pour l’intelligence artificielle. D’autres, dont moi, n’ont pas été impressionnés. Un comportement sophistiqué ne prouve pas qu’on a un cerveau, mais une mémoire, tout au plus. Comme l’a dit Dali, « le premier qui compara les joues d’une jeune femme à une rose était évidemment un poète ; le premier à l’avoir répété était peut-être un idiot ».

Lors du concours 1997, un juge s’est laissé entraîner dans une conversation politique par Catherine, qui avait été programmée pour parler des Clinton et du scandale du Whitewater (6). Tout s’est très bien passé jusqu’à la toute fin, quand le juge a pris congé :

« Juge : Je crois que je vais devoir vous laisser, Catherine. J’ai beaucoup apprécié cette conversation avec vous.

Juge : Voulez-vous de l’eau ou quoi que ce soit avant que les cinq minutes se terminent ? »

Et c’est là que le logiciel pète les plombs.

« Ordinateur : OK, oui, en définitive… Il est temps d’arrêter, je pense, pour passer à quelque chose de plus terre à terre !

Juge : Du genre ?

Ordinateur : Presque certainement ! Avançons

Ordinateur : Je suppose que cela dépend d’où vous venez, mais comme dit la chanson dans My Fair Lady, “Pourquoi une femme ne peut-elle pas ressembler davantage à un homme ?” »

Une défaite à deux doigts de la victoire.

On conçoit souvent l’intelligence, artificielle ou non, en termes de sophistication, de complexité du comportement. Mais il est souvent impossible de dire avec certitude quoi que ce soit du logiciel lui-même, parce que n’importe laquelle de ses composantes, dont le niveau d’« intelligence » varie considérablement, peut être à l’origine de ce comportement.

Non, je pense que la sophistication n’est pas du tout l’intelligence. Par exemple, on ne juge pas un orateur à l’éloquence de ses remarques toutes préparées ; il faut attendre le moment des questions pour le voir répondre au pied levé. L’Américaine Hava Siegelmann, professeur de science informatique, a décrit l’intelligence comme « une sorte de sensibilité aux choses ». Les logiciels qui réussissent le test de Turing peuvent produire des résultats intéressants, mais ils sont rigides. Autrement dit, ils sont insensibles, leur conversation est parfois fascinante mais ils sont incapables d’écouter.

Alors que l’informatique du XXIe siècle s’investit de plus en plus dans les appareils mobiles, nous avons vu se ralentir la croissance vertigineuse de la rapidité des processeurs qu’avaient connue les années 1990, les ingénieurs délaissant la puissance brute au profit du design, de la fluidité, de la réactivité et de la simplicité du produit. Ce basculement peut être la cause, l’effet ou le corrélat d’une vision plus saine de l’intelligence humaine, qui est moins complexe et puissante en soi qu’elle n’est sensible et agile. Nos ordinateurs, ces miroirs déformants, nous ont aidés à percevoir cette vérité sur nous-mêmes.

En 2009, le prix de l’Ordinateur le plus humain a été décerné au Londonien David Levy et à son logiciel Do-Much-More. Levy, qui avait déjà gagné en 1997 avec Catherine, est un type fascinant : il a été dans les années 1970 et 1980 l’un des pionniers du jeu d’échecs numérique, puis l’un des organisateurs des matchs de dames entre Marion Tinsley et le logiciel Chinook, qui ont précédé l’affrontement entre Kasparov et Deep Blue. C’est aussi l’auteur d’un ouvrage récent intitulé Love and Sex With Robots, pour vous donner une idée du genre de choses qu’il a en tête lorsqu’il ne participe pas au concours Loebner (7).

Levy se lève, sous les applaudissements, reçoit le prix des mains de Hugh Loebner, et prononce un bref discours sur l’importance de l’intelligence artificielle pour un avenir radieux et sur l’importance du prix Loebner à cet égard. Le président du jury annonce ensuite : « Les résultats que j’ai ici distinguent les humains, et le classement nous dit que le plus humain est le confédéré no 1, Brian Christian. » Il me remet le certificat attestant que je suis l’Humain le plus humain.

Je ne sais pas ce que je ressens exactement. Il paraît étrange de traiter cette récompense comme banale ou dénuée de sens, mais ce trophée signifie-t-il quoi que ce soit pour moi en tant que personne ? J’ai surtout l’impression qu’avec les autres confédérés nous avons tous ensemble apporté un démenti spectaculaire aux erreurs du concours 2008. Cette année-là, les douze juges avaient à cinq reprises estimé les logiciels plus humains que les confédérés. Dans trois de ces cas, le juge avait été trompé par le programme Elbot, produit de la société Artificial Solutions, l’une des nombreuses nouvelles entreprises spécialisées dans la technologie du chatbot. Une erreur de plus, et Elbot aurait berné 33 % des juges en 2008, dépassant les 30 % fixés par Turing et entrant ainsi dans l’histoire. Après la victoire d’Elbot au concours Loebner et la publicité qui s’ensuivit, la firme a apparemment décidé de mettre l’accent sur les applications commerciales ; en tout cas, elle n’a pas participé à l’édition 2009.

D’une certaine manière, une lutte plus serrée aurait pu être plus spectaculaire. Nous, confédérés, n’avons pas laissé une seule voix aller aux machines. Alors qu’en 2008 ce fut la débandade, 2009 fut un triomphe. On conçoit toujours la science comme une marche inlassable qui ne s’arrête jamais. Mais, dans le contexte du test de Turing, les humains, plus dynamiques que jamais, n’autorisent pas ce genre de fable. Nous refusons de fournir un repère immuable.

Certains voient l’avenir de l’informatique comme une sorte de paradis. Se rassemblant derrière l’idée de « Singularité », des gens comme Ray Kurzweil (dans son livre « La singularité est proche ») et sa foule de disciples prévoient que nous fabriquerons des machines plus intelligentes que nous, qui fabriqueront à leur tour des machines plus intelligentes qu’elles, et ainsi de suite, le processus s’accélérant de façon exponentielle jusqu’à engendrer une ultra-intelligence si colossale qu’elle est difficile à concevoir. Selon eux, ce sera l’ère de la techno-félicité, où les humains pourront télécharger leur conscience sur Internet et être transportés – sinon physiquement, du moins mentalement – dans une vie éternelle dans le monde de l’électricité.

Préludes de Bach

D’autres imaginent une sorte d’enfer. Les machines font s’éteindre le soleil, rasent nos villes, nous enferment en chambre hyperbare et absorbent à jamais notre chaleur corporelle. Je ne suis pas un futuriste mais, à tout prendre, je préfère concevoir l’avenir de l’intelligence artificielle comme une sorte de purgatoire : un lieu où les êtres déficients mais de bonne volonté iront pour être purifiés – et mis à l’épreuve – afin d’en ressortir meilleurs.

Qui aurait cru que les tout premiers exploits de l’ordinateur se feraient dans le domaine de l’analyse logique, compétence dont on pensait jadis qu’elle nous distinguait de toutes les autres créatures existantes ? Que l’ordinateur pourrait piloter un avion et guider un missile avant de savoir faire du vélo ? Qu’il pourrait, de manière plausible, composer des préludes à la manière de Bach avant de pouvoir parler de la pluie et du beau temps ? Qu’il pourrait produire des dissertations plus ou moins lisibles sur la théorie postmoderne avant de pouvoir dire « chaise » quand on lui montre une chaise, comme en sont capables la plupart des jeunes enfants ?

S’ils maîtrisent des compétences complexes qu’on avait longtemps crues spécifiquement humaines, les ordinateurs restent incapables d’acquérir ces aptitudes élémentaires que sont l’orientation dans l’espace, la reconnaissance d’objets, le langage naturel, la flexibilité des objectifs qu’on se donne. Ils nous montrent ainsi combien ces savoirs fondamentaux sont impressionnants.

Nous oublions à quel point nous sommes impressionnants. Les machines nous le rappellent.

Au lycée, l’une de mes meilleures amies était barmaid. Toute la journée, elle procédait à d’innombrables ajustements subtils dans la manière de préparer les cafés, en tenant compte de la fraîcheur des grains à moudre, de la température de la machine, de l’effet de la pression barométrique sur le volume de vapeur, tout en manipulant la machine avec la dextérité d’une pieuvre et en faisant la causette avec quantité de clients sur toutes sortes de sujets. Après quoi elle est partie pour la fac et a obtenu son premier « vrai » travail : opératrice de données, soumise à des procédures strictes. Elle pensait avec regret aux beaux jours où elle était barmaid, quand son emploi sollicitait vraiment son intelligence.

La fétichisation de la pensée analytique et le dénigrement concomitant des aspects animaux de la vie : voilà deux attitudes dont nous ferions bien de nous débarrasser. En ce début de l’ère de l’intelligence artificielle, nous commençons peut-être enfin à nous recentrer, après avoir vécu pendant des générations en valorisant le côté logique, celui de l’hémisphère gauche. À quoi il faut ajouter que le mépris des humains pour les animaux « sans âme », la répugnance à admettre que nous descendons de nos amies les « bêtes », cela est aujourd’hui contesté sur tous les fronts : par l’emprise croissante de la pensée laïque et empirique, par la reconnaissante grandissante des capacités cognitives et comportementales d’autres organismes que le nôtre, et – ce n’est pas une coïncidence – par l’entrée en scène d’une entité dotée de beaucoup moins d’âme que nous n’en percevons chez le chimpanzé ordinaire ou chez le bonobo ; l’intelligence artificielle pourrait ainsi même favoriser le respect des droits des animaux.

Il est tout à fait possible que l’apogée de l’hémisphère gauche relève du passé. Le retour à une vision plus équilibrée du cerveau et de l’esprit – et de l’identité humaine – me paraît être une bonne chose, qui entraîne un changement de point de vue sur la sophistication de diverses tâches.

Il suffit de comprendre à quel point la connaissance est désincarnée, de voir à quel point l’abstraction pure est froide, morte et déconnectée de la réalité sensorielle, pour s’en affranchir, j’en suis persuadé. C’est le seul moyen de nous ramener au bon sens, à nos sens. Dans un article consacré en 2006 au test de Turing, le cofondateur du concours Loebner, Robert Epstein, écrivait : « Une chose est certaine : contrairement aux ordinateurs, les confédérés ne deviendront jamais plus intelligents. » J’admets que les ordinateurs deviendront toujours plus intelligents, mais je pense que cela vaut aussi pour les humains.

Quand le champion du monde d’échecs Garry Kasparov a vaincu Deep Blue, de manière assez convaincante, lors de leur premier affrontement en 1996, IBM et lui ont très vite accepté le principe d’une revanche l’année suivante. Quand Deep Blue a battu Kasparov (de façon plutôt moins convaincante) en 1997, le vaincu a proposé une nouvelle partie en 1998, mais IBM n’a pas voulu en entendre parler et Deep Blue fut détruit.

Cela signifierait donc, puisque l’évolution technologique va tellement plus vite que l’évolution biologique (on la mesure en années et non en millénaires), que Homo sapiens ne pourra jamais rattraper son retard une fois qu’il aura été dépassé. Quand une machine gagnera au test de Turing, ce sera pour toujours. Eh bien non, je ne suis pas d’accord.

L’empressement d’IBM à se retirer de la compétition après la victoire de Deep Blue en 1997 est le signe d’une insécurité qui semble me donner raison. L’espèce humaine en est arrivée là parce qu’elle est de toutes la plus adaptable, la plus flexible, la plus innovante, la plus prompte à apprendre. Nous ne nous laisserons pas vaincre sans réagir.

L’année où des ordinateurs réussiront le test de Turing sera historique, mais ce ne sera pas pour autant la fin de l’aventure.

Cet article est paru dans The Atlantic en mars 2011. Il a été traduit par Laurent Bury.

En 2014, trois ans après la parution de cette article, un programme informatique a réussi à convaincre 33 % des juges. Ce succès est cependant contesté du fait notamment des biais suscités par le programme lui-même. Il incarnait un Ukrainien de 13 ans à qui les juges ont pu pardonner des défauts dans la conversation.
Citation tirée de Douglas Hofstadter, Gödel, Escher, Bach, Dunod, 2008 (1979 pour l’édition américaine).
John Lucas a publié en 1959 un article célèbre affirmant qu’un humain mathématicien ne pourra jamais être représenté par un automate algorithmique (« Minds, machines and Gödel »).
L’Américain Carl Rogers, mort en 1987, a développé une thérapie « centrée sur la personne » qui ne relevait ni de la psychanalyse ni de la thérapie comportementale.
Dans le concours 2010, les organisateurs ont fixé la durée à 25 minutes. Seul un juge a été trompé par un robot. Le test 2011, prévu le 19 octobre, est de nouveau fixé à 25 minutes.
Ce scandale, qui a éclaté au cours de la campagne présidentielle de 1992, concernait des investissements immobiliers frauduleux réalisés par les époux Clinton.
David Levy pense qu’en 2050, on assistera à des mariages entre des humains et des robots. Lire à ce propos « La singularité Kurzweil ».

Le grand tournoi de l’ordinateur le plus humain

Le donjon du propre de l’homme

C'est gratuit !

L’étonnante percée d’Eliza

Envoyer promener les règles

Cinq minutes de conversation

Préludes de Bach

Dans le magazineBOOKS n°123

Dans le magazine
BOOKS n°123