Alors que la police chinoise est capable d’identifier un homme recherché parmi une foule de 60 000 personnes, le géant américain Google a réussi à développer une IA qui isole la voix d’un humain parmi tant d’autres. Une solution pratique qui permettrait d’entendre ses amis à l’autre bout du fil lors d’une soirée bien remplie !

Des chercheurs de l’entreprise ont mis au point un système d’apprentissage en profondeur (deep learning) permettant d’isoler des voix spécifiques en regardant le visage des gens lorsqu’ils parlent. Ainsi, le réseau de neurones développés a été formé pour reconnaître des personnes parlant individuellement et pour créer des parties virtuellement avec un bruit de fond pour enseigner à l’IA comment isoler plusieurs voix en pistes audio distinctes. Pour ce faire, l’IA a été entrainé et 100 000 vidéos ont été analysées.

Comme on peut le voir sur les vidéos ci-dessous, les résultats sont plutôt bons, voir impressionnants ! L’IA est capable de générer une piste audio claire pour une personne même lorsque le brouhaha est important.

Cette technologie pourrait être utile sur les services de chat vidéo de Google comme Hangouts ou Duo, permettant ainsi de comprendre ce que dit une personne lorsqu’elle parle dans une salle bondée. On peut également imaginer que la technologie pourrait être implantée sur Google Home ! Google explique également pouvoir améliorer les sous-titres automatiques des vidéos, notamment sur YouTube.

Google est capable d'isoler la voix d'une personne en se concentrant sur son visage.

Pour le moment Google est encore en réflexion sur les potentielles utilisations de cette technologie, mais je suis sûre qu’ils trouveront comme l’implémenter !

Source.