Une start-up issue des travaux de l'université de Cambridge s'est appuyée sur l'apprentissage par renforcement pour former une intelligence artificielle à la conduite automobile. En vingt minutes, l'IA est parvenue à savoir comment maintenir la voiture sur sa voie de circulation.

au sommaire


    Actuellement, les voitures autonomes reposent sur une armada de capteurscapteurs ultrasonsultrasons, caméras et autres lidarslidars pour cartographier leur environnement et détecter les obstacles à 360° en temps réel. Leur apprentissage de la conduite est le fruit d'un long chemin, qui implique le traitement d'une grande quantité de données et de règles. Wayve, une jeune pousse créée par une équipe de doctorants de l'université de Cambridge (Royaume-Uni), veut proposer une approche radicalement différente.

    Elle a développé une intelligence artificielle qui a appris à conduire une voiturevoiture sans connaissance préalable, en se basant sur une expérimentation empirique inspirée de la manière de faire des humains. Résultat, il ne lui a fallu qu'une vingtaine de minutes et moins de vingt tentatives pour savoir se maintenir sur sa voie de circulation. Le cœur du dispositif est un réseau neuronal convolutif multicouches qui utilise la technique d'apprentissage par renforcement (reinforcement learning). Cette méthode fait actuellement beaucoup parler d'elle dans le domaine de l'intelligence artificielle. DeepMind s'en est récemment servi pour entraîner une IA à jouer en équipe à Quake II Arena.


    On peut suivre en accéléré l'apprentissage du logiciel de conduite autonome qui corrige petit à petit ses erreurs de trajectoire après chaque intervention humaine. © Wayve

    Une logique pénalité-récompense qui accélère l’apprentissage

    Dans le cas de Wayve, l'algorithme a appris grâce aux corrections d'un conducteur et n'avait comme repère concret que les images fournies par une seule caméra. Présent à bord de la Renault Twizy qui a servi à cette expérience, le chauffeur corrigeait systématiquement les écarts de trajectoire causés par le logiciel en arrêtant la voiture. Le programme a rapidement progressé en suivant une logique pénalité-récompense, en l'occurrence, respectivement, une intervention humaine et la distance maximale parcourue sans correction par le conducteur.

    «Nous voulons donner à nos véhicules de meilleurs cerveaux, pas plus de matériel », explique Wayve. L'objectif suivant est d'aller plus loin et d'apprendre au système à gérer les feux de circulation, les intersections ou encore les ronds-points.