Cet article vous est offert
Pour lire gratuitement cet article réservé aux abonnés, connectez-vous
Vous n'êtes pas inscrit sur Le Monde ?
Plusieurs tests existent pour mesurer différents aspects de l'intelligence artificielle.
Quentin Hugon / Le Monde

Jeu de go : comment savoir si les programmes d’intelligence artificielle sont vraiment… intelligents

Par 
Publié le 24 février 2016 à 19h25, modifié le 09 mars 2016 à 11h28

Temps de Lecture 8 min.

Depuis mercredi 9 mars au matin, et jusqu’à mardi 15 mars, un programme informatique affronte pour la première fois le meilleur joueur de go au monde, le Coréen Lee SeDol. Ce dernier a abandonné mercredi la première manche après trois heures et demi de jeu, réalisant qu’elle ne pouvait plus échapper à ce programme de Google nommé AlphaGo. S’il parvient à le battre, AlphaGo marquera une étape dans l’histoire de l’intelligence artificielle.

Depuis les années 1950, plusieurs tests ont été utilisés pour évaluer le niveau des programmes d’intelligence artificielle. Certains ont été passés avec brio, d’autres ont au contraire donné de piètres résultats. Ces tests évaluent des compétences très différentes et mettent en lumière le fait qu’il n’existe pas, aujourd’hui, « une » intelligence artificielle, mais « des » intelligences artificielles, représentant chacune une composante de l’intelligence humaine.

Le test de Turing : l’intelligence imitée

Il est, de loin, le plus emblématique de tous. Conçu en 1950 par Alan Turing, l’un des pionniers de l’informatique, il considère qu’une machine est intelligente à partir du moment où elle est capable de se faire passer pour une intelligence humaine. Lors de ce test, des juges discutent par tchat avec des interlocuteurs, machines et humains, dont ils ne connaissent pas la nature. Si, au bout de cinq minutes de conversation, le programme réussit à se faire passer pour un humain auprès de 30 % des juges, alors le test est réussi.

En 2014, une première victoire contestée

Cinquante ans plus tard, ce test reste une étape infranchissable pour la machine. Ou presque. En juin 2014, l’université de Reading a annoncé qu’un programme l’avait réussi, une première historique : 33 % des juges ont été convaincus par leur dialogue avec Eugene Goostman, une intelligence artificielle se faisant passer pour un adolescent ukrainien de 13 ans. Mais ce succès a été aussitôt contesté : il est plus facile de tromper les juges, et de laisser passer erreurs de compréhension et imperfections de langage, quand on prétend être un jeune garçon qui parle mal anglais.

Cela a fait ressurgir les critiques attribuées plus généralement au test de Turing. Constitue-t-il une méthode suffisante pour mesurer l’intelligence artificielle ? Imiter l’intelligence ne signifie pas nécessairement être intelligent, et plusieurs subterfuges peuvent être utilisés pour duper le jury. Qui plus est, le seuil des 30 % de juges, qui pourrait venir d’une interprétation erronée d’une citation d’Alan Turing, est-il légitime ?

Inspiré du test de Turing, le prix Loebner récompense quant à lui les « chatbots », ou agents conversationnels, les plus convaincants après 25 minutes de discussion. En 2015, c’est un chatbot nommé Rose qui l’a emporté.

Jeu d’échecs et jeu de go : des progrès considérables

Les jeux de stratégie ont également marqué l’histoire de l’intelligence artificielle, même s’ils ne mesurent pas les mêmes compétences : ils évaluent la capacité de la machine en matière de calcul de probabilités, de prise de décision mais aussi d’apprentissage.

Le jeu de go, bien plus complexe que les échecs

La victoire aux échecs du programme Deep Blue d’IBM contre le champion Garry Kasparov en 1997 a marqué un tournant : pour la première fois, l’un des tout meilleurs joueurs humains était battu par un ordinateur.

Aujourd’hui, c’est au jeu de go, plus complexe à appréhender (le nombre de combinaisons possibles est de 10170, contre 10120 pour les échecs), que s’attaque l’intelligence artificielle avec le programme AlphaGo, développé par des chercheurs de Google. Après l’avoir emporté en octobre contre le champion européen en titre Fan Hui, une première contre un joueur professionnel, cette machine a commencé à se mesurer à Lee Sedol, considéré comme le meilleur joueur au monde. Si elle gagne, cela marquera l’histoire de l’intelligence artificielle.

« Jeopardy ! », le « Qui veut gagner des millions ? » inversé

Certains tests d’intelligence artificielle se font… sur les plateaux télé. Ainsi, le programme d’intelligence artificielle star d’IBM, nommé Watson, a réalisé un petit exploit en 2011 en battant ses adversaires humains au jeu télévisé américain « Jeopardy ! ». Dans ce classique, le présentateur lit une réponse et les participants doivent deviner la question qui s’y rapporte. Après deux jours de compétition, Watson avait écrasé ses concurrents.

Comme le test de Turing, « Jeopardy ! » fait appel à la compréhension du langage. Pour battre les humains, Watson s’est appuyé sur une importante base de données lui apportant des éléments de culture générale. Ce programme peut également apprendre par lui-même, notamment de ses erreurs. Watson disposait néanmoins d’un avantage par rapport à ses adversaires humains : sa capacité d’appuyer instantanément, et donc avant eux, sur le buzzer.

Le test de QI : 4 ans d’âge mental

Il paraît logique que des machines aient été soumises au test de quotient intellectuel, utilisé pour mesurer l’intelligence humaine. A l’automne 2015, l’université de l’Illinois a publié des résultats d’un de ces tests qu’elle a fait passer à un programme développé par le prestigieux Massachusetts Institute of technology (MIT). ConceptNet 4, c’est son nom, a ainsi dû répondre aux questions d’un test de QI conçu pour les enfants de moins de six ans, le Wechsler Preschool and Primary Scale of Intelligence (WPPSI). Ces questions étaient censées évaluer ses compétences dans cinq domaines :

  • Information (« où trouve-t-on des pingouins ? »)
  • Vocabulaire (« qu’est-ce qu’une maison ? »)
  • Raisonnement (« tu peux voir à travers, c’est carré, tu peux l’ouvrir… Qu’est-ce que c’est ? »)
  • Compréhension du monde (« pourquoi les gens se serrent-ils la main ? »)
  • Similarités (« X et Y sont deux ___ »)

Résultat : si ConceptNet s’est avéré plutôt doué dans les catégories vocabulaire et similarités, et d’un niveau correct pour l’information, il a néanmoins obtenu de mauvais résultats en compréhension du monde et raisonnement. A la question « où peut-on trouver un professeur ? », il a apporté des réponses absurdes, comme « piano ». Si on lui demande de trouver l’animal qui « a une crinière si c’est un mâle, vit en Afrique et ressemble à un gros chat jaune et marron », l’ordinateur propose des réponses tout à fait incorrectes : chien, ferme, créature, maison et chat.

Le Monde
Offre spéciale étudiants et enseignants
Accédez à tous nos contenus en illimité à partir de 9,99 €/mois au lieu de 11,99 €.
S’abonner

ConceptNet a obtenu un score correspondant à celui d’un enfant de quatre ans. Ce qui ne signifie pas pour autant qu’il dispose de l’intelligence d’un bambin de cet âge, les erreurs commises ne correspondant pas à celles d’un enfant. Qui plus est, le test de QI, considéré comme réducteur, est déjà très critiqué dans sa légitimité à mesurer l’intelligence humaine.

Contrôle de sciences niveau collège : le 20/20 est encore loin

L’institut Allen pour l’intelligence artificielle a organisé en 2015 un concours invitant les développeurs à créer des programmes capables de passer un contrôle de sciences de niveau 4e. Près de 800 équipes ont relevé le défi, mais le résultat, dévoilé en février, ne fut pas à la hauteur des espérances : le programme gagnant n’a répondu correctement qu’à 59 % des questions.

Le contrôle se composait de questions à choix multiples et, comme pour le test de QI, l’informatique s’en sort mieux quand il s’agit de répondre à des questions simples et factuelles (« Quel modèle est utilisé par les scientifiques pour classifier les propriétés des éléments ? ») que quand la question exige un minimum de raisonnement (« Que nous apprennent les séismes sur l’histoire de la planète ? »).

La plupart des programmes ont ingurgité d’immenses bases de données d’informations scientifiques et ont utilisé des techniques d’apprentissage des machines pour élaborer les réponses les plus pertinentes. Résultat : même quand on délimite l’étendue du savoir dont a besoin un programme, celui-ci n’est pas capable de briller.

Lecture du Monde en cours sur un autre appareil.

Vous pouvez lire Le Monde sur un seul appareil à la fois

Ce message s’affichera sur l’autre appareil.

  • Parce qu’une autre personne (ou vous) est en train de lire Le Monde avec ce compte sur un autre appareil.

    Vous ne pouvez lire Le Monde que sur un seul appareil à la fois (ordinateur, téléphone ou tablette).

  • Comment ne plus voir ce message ?

    En cliquant sur «  » et en vous assurant que vous êtes la seule personne à consulter Le Monde avec ce compte.

  • Que se passera-t-il si vous continuez à lire ici ?

    Ce message s’affichera sur l’autre appareil. Ce dernier restera connecté avec ce compte.

  • Y a-t-il d’autres limites ?

    Non. Vous pouvez vous connecter avec votre compte sur autant d’appareils que vous le souhaitez, mais en les utilisant à des moments différents.

  • Vous ignorez qui est l’autre personne ?

    Nous vous conseillons de modifier votre mot de passe.

Lecture restreinte

Votre abonnement n’autorise pas la lecture de cet article

Pour plus d’informations, merci de contacter notre service commercial.