Après le texte, les images et la vidéo, OpenAI et ChatGPT veulent cloner des voix humaines

Le Voice Engine fait partie des nouveaux outils dévoilés par OpenAI au-delà de ChatGPT ©AFP - CFOTO / NurPhoto
Le Voice Engine fait partie des nouveaux outils dévoilés par OpenAI au-delà de ChatGPT ©AFP - CFOTO / NurPhoto
Le Voice Engine fait partie des nouveaux outils dévoilés par OpenAI au-delà de ChatGPT ©AFP - CFOTO / NurPhoto
Publicité

L'entreprise OpenAI, connue pour avoir créé le logiciel ChatGPT, a dévoilé ce week-end son nouvel outil : Voice Engine, un modèle permettant de "cloner" un extrait de voix de 15 secondes pour fabriquer une synthèse vocale personnalisée. L'outil ne sera pas ouvert tout de suite au grand public.

OpenAI continue à faire parler d'elle : l'entreprise à qui l'on doit le fameux ChatGPT, le robot de discussion piloté par une intelligence artificielle qui a bouleversé le monde numérique, a dévoilé ce week-end le nouvel outil sur lequel elle a travaillé, à peine plus d'un mois après avoir présenté Sora, son IA qui produira des séquences vidéo.

Cette fois, c'est de synthèse vocale qu'il s'agit : Voice Engine, c'est le nom de ce nouveau modèle, est capable de créer une voix artificielle à partir d'un extrait de seulement 15 secondes de voix. Sur son site, OpenAI montre de nombreux exemples partant d'une voix humaine pour donner naissance à des "clones vocaux".

Publicité

Un modèle déjà dans certaines applications

Ce modèle n'est pas une nouveauté, car OpenAI travaille dessus depuis la fin 2022, et l'a déjà implémenté pour certains de ses clients professionnels, comme Spotify : c'est déjà Voice Engine qui sert à la traduction de certains podcasts dans une autre langue depuis plusieurs mois. Mais c'est la première fois que l'entreprise dévoile publiquement les résultats de son modèle et évoque une ouverture au grand public.

Parmi les applications possibles de cette fonction très réaliste, on trouve donc la traduction – il sera possible de "parler" dans une langue étrangère. Mais ce n'est pas tout : OpenAI évoque aussi la possibilité de rendre du contenu accessible à ceux qui ne savent pas, ou ne peuvent pas lire. Ou encore la perspective d'une reconstruction vocale pour des personnes qui auraient perdu tout ou une partie de leur voix suite à des problèmes de santé, à partir d'un extrait antérieur.

6 min
2 min

Une sécurisation avant sa sortie

Si OpenAI évoque une arrivée de son outil pour le grand public, ce ne sera pas pour tout de suite : l'entreprise veut prendre le temps de renforcer la sécurité de son système, pour empêcher les utilisations abusives de ce clonage vocal. Il faudra ainsi prouver (même si OpenAI ne dit pas encore comment) que l'on a bien le droit d'utiliser une voix que l'on "clone". De la même manière, une liste de voix célèbres qui ne peuvent pas être utilisées va être mise en place, afin d'éviter des utilisations malveillantes, comme celle qui a été faite le mois dernier aux États-Unis de la voix de Joe Biden, dont une copie créée par IA a appelé des électeurs.

L'équipe

pixel