Google, Facebook, Microsoft... Pourquoi les géants de la Silicon Valley misent sur les intelligences artificielles

SCIENCES•Facebook a ouvert un un labo de recherche à Paris, et la compétition s'accélère...

Ce que voit une voiture autonome de Google. - GOOGLE

Philippe Berry

Publié le 03/06/2015 à 05h14 • Mis à jour le 03/06/2015 à 12h15

Que la lumière soit. Sous la houlette du pionnier de la vision artificielle Yann LeCun, recruté en 2013, Facebook a ouvert un laboratoire de recherche à Paris, après New York et la Californie. Google, Facebook, Microsoft, Baidu… Tout le monde mise sur des réseaux neuronaux pour apprendre à la machine à reconnaître et à comprendre le monde. 20 Minutes fait le point sur la hype autour de cette technologie avec des experts.

Un réseau neuronal artificiel, qu’est-ce que c’est ?

C’est un modèle informatique « très vaguement basé sur l’architecture » de notre cerveau, explique Jeff Clune, directeur du Laboratoire d’intelligence artificielle de l’université du Wyoming. Des fonctions mathématiques tentent de modéliser le fonctionnement d’un neurone, avec plusieurs entrées et une sortie. L’appellation « deep learning » fait référence à une approche par couches. Lors d’une phase d’apprentissage, le système analyse des centaines de millions d’images et ajuste tout seul certains coefficients en fonction de ses succès et de ses échecs.

Et concrètement, ça marche comment ?

Dans cet exemple, la machine tente d’identifier Barack Obama. Elle analyse d’abord chaque pixel. Une couche de bas niveau reconnaît les lignes droites et les courbes. Une autre, les couleurs. Une plus élevée s’est entraînée à identifier son nez, une autre ses yeux etc. Le résultat final ressemble à « C’est son nez avec une certitude de 51 %, ses cheveux à 94 %, ses yeux à 77 %, donc c’est sans doute Barack Obama à 81 %. » Au fil des années, l’algorithme peut remarquer que ses cheveux blanchissent et prendre en compte cet élément.

Les limites

Avec sa nouvelle apps Photos, Google reconnaît en un clin d’oeil les clichés de votre chien ou de votre fille. Mais ces systèmes ont encore du mal avec certains effets d’ombre et avec les faux positifs. Dans une expérience, Jeff Clune a notamment montré qu’une surface jaune et noire était identifiée à tort comme un bus scolaire.

Pourquoi Facebook mise sur cette technologie ?

Pas simplement pour tagger vos amis ivres. Facebook veut s’appuyer « sur la reconnaissance d’image et la compréhension du langage naturel (tel que nous le parlons, ndr) pour améliorer le news feed, le partage de photos et inventer de nouveaux moyens pour communiquer et de partager ». Selon LeCun, un système automatisé peut par exemple reconnaître une vidéo violente (décapitation etc.) et la bloquer.

Google et les chats

En 2012, Google annonçait que son système avait passé des millions de vidéos YouTube à la moulinette et avait identifié le concept de « chat » sans aide humaine. En fait, « le système a reconnu un groupe partageant des caractéristiques communes », nuance Jeff Clune. En clair, la machine ne sait pas vraiment qu’il s’agit de minou mais elle devine que deux chats appartiennent au même groupe « oreilles pointues/longue queue ».

Et quand la machine « apprend » toute seule à jouer à un jeu vidéo ?

C’est l’une des avancées les plus bluffantes. Un système de DeepMind, racheté par Google, a appris à jouer à une quarantaine de jeux Atari comme le casse-briques Breakout. A la différence de Fifa ou Call of Duty, la machine ne suit ici aucun script prédéfini. Il s’agit d’un apprentissage par renforcement grâce à un signal lui indiquant quand le score monte, ce qui lui permet de déduire l’impact positif ou négatif d’une action. Après environ deux heures, elle est devenue aussi forte que l’humain. Après quatre, elle a développé une tactique optimale (en creusant un « tunnel » pour piéger la balle dans la partie supérieure). En revanche, elle est nulle à Pac-Man car elle n’arrive pas à élaborer une stratégie avec plusieurs secondes d’avance. Surtout, à la différence d’un enfant, elle est, pour l’instant, incapable d’appliquer ses progrès sur un autre jeu similaire : l’entraînement doit reprendre de zéro.

Les applications actuelles et futures

La vision artificielle ne se cantonne pas à identifier les chats et les enfants. Elle est centrale pour permettre aux voitures de Google de conduire toutes seules sans écraser les passants. Elle joue un rôle majeur dans la lutte contre le spam. Watson, le superordinateur d’IBM, peut assister les médecins dans leur diagnostic et détecter une maladie rare grâce à une base de données presque infinie. A terme, les robots auront besoin de voir pour devenir des assistants utiles ou secourir un humain piégé par une catastrophe comme l’explosion de la centrale nucléaire de Fukushima. Un ordinateur pourra encore décrire en temps réel la scène d’un film ou une œuvre d’art à une personne aveugle.

Les ordinateurs auront-ils bientôt la puissance du cerveau humain ?

Il y a 100 milliards de neurones dans notre cerveau et plus de 100.000 milliards de connexions (synapses). Le petit ver de terre c-elegans, lui, ne possède que 302 neurones, et malgré le séquençage complet de son génome et la cartographie de ses interactions neuronales, le fonctionnement global de son cerveau reste un mystère. La réalité, « c’est qu’on sait très peu de chose sur le cerveau », avertit Berthold Horn. Selon expert en vision artificielle du MIT, « malgré leur nom, les réseaux neuronaux artificiels ne fonctionnent pas de la même manière » et il est difficile de comparer les deux. Avec 100.000 neurones, la mouche drosophile est incapable de jouer à Space Invaders mais elle peut voler et éviter les obstacles avec plus d’efficacité que n’importe quel drone. La machine peut voir un humain, un chien et une balle sur une image mais aura du mal à établir la connexion instinctive « le chien va chercher la balle lancée par l’humain ». Nous ne sommes pas encore complètement remplaçables.