Plusieurs tests existent pour mesurer différents aspects de l'intelligence artificielle. — Quentin Hugon / Le Monde

Jeu de go : comment savoir si les programmes d’intelligence artificielle sont vraiment… intelligents

Publié le 24 février 2016 à 19h25, modifié le 09 mars 2016 à 11h28

Ajouter à vos sélections
Partager
- Partager sur Facebook
- Envoyer par e-mail
- Partager sur Linkedin

Les faitsPlusieurs tests affichent l’ambition d’évaluer le niveau des programmes informatiques. Le match en cours entre AlphaGo, développé par Google, et le meilleur joueur de go au monde, fait partie de ces tests.

Depuis mercredi 9 mars au matin, et jusqu’à mardi 15 mars, un programme informatique affronte pour la première fois le meilleur joueur de go au monde, le Coréen Lee SeDol. Ce dernier a abandonné mercredi la première manche après trois heures et demi de jeu, réalisant qu’elle ne pouvait plus échapper à ce programme de Google nommé AlphaGo. S’il parvient à le battre, AlphaGo marquera une étape dans l’histoire de l’intelligence artificielle.

Depuis les années 1950, plusieurs tests ont été utilisés pour évaluer le niveau des programmes d’intelligence artificielle. Certains ont été passés avec brio, d’autres ont au contraire donné de piètres résultats. Ces tests évaluent des compétences très différentes et mettent en lumière le fait qu’il n’existe pas, aujourd’hui, « une » intelligence artificielle, mais « des » intelligences artificielles, représentant chacune une composante de l’intelligence humaine.

Le test de Turing : l’intelligence imitée

Il est, de loin, le plus emblématique de tous. Conçu en 1950 par Alan Turing, l’un des pionniers de l’informatique, il considère qu’une machine est intelligente à partir du moment où elle est capable de se faire passer pour une intelligence humaine. Lors de ce test, des juges discutent par tchat avec des interlocuteurs, machines et humains, dont ils ne connaissent pas la nature. Si, au bout de cinq minutes de conversation, le programme réussit à se faire passer pour un humain auprès de 30 % des juges, alors le test est réussi.

En 2014, une première victoire contestée

Cinquante ans plus tard, ce test reste une étape infranchissable pour la machine. Ou presque. En juin 2014, l’université de Reading a annoncé qu’un programme l’avait réussi, une première historique : 33 % des juges ont été convaincus par leur dialogue avec Eugene Goostman, une intelligence artificielle se faisant passer pour un adolescent ukrainien de 13 ans. Mais ce succès a été aussitôt contesté : il est plus facile de tromper les juges, et de laisser passer erreurs de compréhension et imperfections de langage, quand on prétend être un jeune garçon qui parle mal anglais.

Cela a fait ressurgir les critiques attribuées plus généralement au test de Turing. Constitue-t-il une méthode suffisante pour mesurer l’intelligence artificielle ? Imiter l’intelligence ne signifie pas nécessairement être intelligent, et plusieurs subterfuges peuvent être utilisés pour duper le jury. Qui plus est, le seuil des 30 % de juges, qui pourrait venir d’une interprétation erronée d’une citation d’Alan Turing, est-il légitime ?

Inspiré du test de Turing, le prix Loebner récompense quant à lui les « chatbots », ou agents conversationnels, les plus convaincants après 25 minutes de discussion. En 2015, c’est un chatbot nommé Rose qui l’a emporté.

Lire le décryptage : Intelligence artificielle : une machine est-elle capable de philosopher ?

Jeu d’échecs et jeu de go : des progrès considérables

Les jeux de stratégie ont également marqué l’histoire de l’intelligence artificielle, même s’ils ne mesurent pas les mêmes compétences : ils évaluent la capacité de la machine en matière de calcul de probabilités, de prise de décision mais aussi d’apprentissage.

Le jeu de go, bien plus complexe que les échecs

La victoire aux échecs du programme Deep Blue d’IBM contre le champion Garry Kasparov en 1997 a marqué un tournant : pour la première fois, l’un des tout meilleurs joueurs humains était battu par un ordinateur.

Aujourd’hui, c’est au jeu de go, plus complexe à appréhender (le nombre de combinaisons possibles est de 10¹⁷⁰, contre 10¹²⁰ pour les échecs), que s’attaque l’intelligence artificielle avec le programme AlphaGo, développé par des chercheurs de Google. Après l’avoir emporté en octobre contre le champion européen en titre Fan Hui, une première contre un joueur professionnel, cette machine a commencé à se mesurer à Lee Sedol, considéré comme le meilleur joueur au monde. Si elle gagne, cela marquera l’histoire de l’intelligence artificielle.

Lire le récit : Première défaite d’un professionnel du go contre une intelligence artificielle

« Jeopardy ! », le « Qui veut gagner des millions ? » inversé

Certains tests d’intelligence artificielle se font… sur les plateaux télé. Ainsi, le programme d’intelligence artificielle star d’IBM, nommé Watson, a réalisé un petit exploit en 2011 en battant ses adversaires humains au jeu télévisé américain « Jeopardy ! ». Dans ce classique, le présentateur lit une réponse et les participants doivent deviner la question qui s’y rapporte. Après deux jours de compétition, Watson avait écrasé ses concurrents.

Comme le test de Turing, « Jeopardy ! » fait appel à la compréhension du langage. Pour battre les humains, Watson s’est appuyé sur une importante base de données lui apportant des éléments de culture générale. Ce programme peut également apprendre par lui-même, notamment de ses erreurs. Watson disposait néanmoins d’un avantage par rapport à ses adversaires humains : sa capacité d’appuyer instantanément, et donc avant eux, sur le buzzer.

Le test de QI : 4 ans d’âge mental

Il paraît logique que des machines aient été soumises au test de quotient intellectuel, utilisé pour mesurer l’intelligence humaine. A l’automne 2015, l’université de l’Illinois a publié des résultats d’un de ces tests qu’elle a fait passer à un programme développé par le prestigieux Massachusetts Institute of technology (MIT). ConceptNet 4, c’est son nom, a ainsi dû répondre aux questions d’un test de QI conçu pour les enfants de moins de six ans, le Wechsler Preschool and Primary Scale of Intelligence (WPPSI). Ces questions étaient censées évaluer ses compétences dans cinq domaines :

Information (« où trouve-t-on des pingouins ? »)
Vocabulaire (« qu’est-ce qu’une maison ? »)
Raisonnement (« tu peux voir à travers, c’est carré, tu peux l’ouvrir… Qu’est-ce que c’est ? »)
Compréhension du monde (« pourquoi les gens se serrent-ils la main ? »)
Similarités (« X et Y sont deux ___ »)

Résultat : si ConceptNet s’est avéré plutôt doué dans les catégories vocabulaire et similarités, et d’un niveau correct pour l’information, il a néanmoins obtenu de mauvais résultats en compréhension du monde et raisonnement. A la question « où peut-on trouver un professeur ? », il a apporté des réponses absurdes, comme « piano ». Si on lui demande de trouver l’animal qui « a une crinière si c’est un mâle, vit en Afrique et ressemble à un gros chat jaune et marron », l’ordinateur propose des réponses tout à fait incorrectes : chien, ferme, créature, maison et chat.

Le Monde

Offre spéciale étudiants et enseignants

Accédez à tous nos contenus en illimité à partir de 9,99 €/mois au lieu de 11,99 €.

S’abonner

ConceptNet a obtenu un score correspondant à celui d’un enfant de quatre ans. Ce qui ne signifie pas pour autant qu’il dispose de l’intelligence d’un bambin de cet âge, les erreurs commises ne correspondant pas à celles d’un enfant. Qui plus est, le test de QI, considéré comme réducteur, est déjà très critiqué dans sa légitimité à mesurer l’intelligence humaine.

Lire : Q.I. : la grande illusion

Contrôle de sciences niveau collège : le 20/20 est encore loin

L’institut Allen pour l’intelligence artificielle a organisé en 2015 un concours invitant les développeurs à créer des programmes capables de passer un contrôle de sciences de niveau 4^e. Près de 800 équipes ont relevé le défi, mais le résultat, dévoilé en février, ne fut pas à la hauteur des espérances : le programme gagnant n’a répondu correctement qu’à 59 % des questions.

Le contrôle se composait de questions à choix multiples et, comme pour le test de QI, l’informatique s’en sort mieux quand il s’agit de répondre à des questions simples et factuelles (« Quel modèle est utilisé par les scientifiques pour classifier les propriétés des éléments ? ») que quand la question exige un minimum de raisonnement (« Que nous apprennent les séismes sur l’histoire de la planète ? »).

La plupart des programmes ont ingurgité d’immenses bases de données d’informations scientifiques et ont utilisé des techniques d’apprentissage des machines pour élaborer les réponses les plus pertinentes. Résultat : même quand on délimite l’étendue du savoir dont a besoin un programme, celui-ci n’est pas capable de briller.

Lire nos explications : Comment le « deep learning » révolutionne l'intelligence artificielle

Jeu de go : comment savoir si les programmes d’intelligence artificielle sont vraiment… intelligents

Le test de Turing : l’intelligence imitée

Jeu d’échecs et jeu de go : des progrès considérables

« Jeopardy ! », le « Qui veut gagner des millions ? » inversé

Le test de QI : 4 ans d’âge mental

Contrôle de sciences niveau collège : le 20/20 est encore loin

Services Le Monde

Guides d'achat Le Monde

Codes promo

Le Monde à l'international

Services Partenaires

Sites du groupe