Google et OpenAI ont entraîné leurs modèles sur des vidéos YouTube, révèle le New York Times

Les géants technologiques font la chasse aux données pour entraîner leurs grands modèles de langage. Leur désir le plus cher ? Exploiter les données personnelles, mais aussi celles soumises au droit d'auteur afin d'avoir les meilleurs modèles d'IA. Et pour cela, ils n'hésitent pas à passer au-dessus des lois et à s'émanciper de politiques contraignantes. Les derniers en date à le faire ne sont autres que Google et OpenAI qui ont largement aspiré des millions d'heures de vidéos YouTube. 

Partager
Google et OpenAI ont entraîné leurs modèles sur des vidéos YouTube, révèle le New York Times
YouTube interdit non seulement d'utiliser ses vidéos pour des applications "indépendantes", mais aussi d'accéder à ses vidéos par "des moyens automatisés (tels que des robots, des botnets ou des scrapers)". Pourtant, Google et OpenAI sont passés outre cette politique.

Far West au pays de l'intelligence artificielle. The New York Times a révélé il y a quelques jours qu'OpenAI a, au moyen de son outil de reconnaissance vocale Whisper, littéralement aspiré l'audio de millions d'heures de vidéos présentes sur YouTube afin de les transcrire et en faire des données exploitables pour l'entraînement de ses grands modèles de langage.

Le quotidien américain affirme ainsi que Whisper a plus ou moins été créé dans ce but afin d'accélérer le développement de GPT-4, ultime version qui alimente l'assistant conversationnel d'IA, ChatGPT.

Une politique pourtant stricte d'utilisation des contenus YouTube

Seul hic (de taille), YouTube interdit non seulement d'utiliser ses vidéos pour des applications "indépendantes", mais aussi d'accéder à ses vidéos par "des moyens automatisés (tels que des robots, des botnets ou des scrapers)". Les employés d'OpenAI savaient qu'ils s'aventuraient dans une zone d'ombre juridique, mais ils pensaient que l'entraînement de l'IA à l'aide des vidéos constituait un usage loyal.

Greg Brockman, président d'OpenAI, a été cité dans un document de recherche comme l'un des créateurs de Whisper. Il a personnellement participé à la collecte de vidéos sur YouTube et les a introduites dans la technologie, ont déclaré deux personnes au New York Times, et a également dirigé l'équipe qui a développé GPT-4.

Google, grand fautif

Le service YouTube appartient à Google. C'est un fait. Ainsi, il aurait était logique que Google décide d'arrêter les agissements d'OpenAI. Pourtant, il s'est passé tout autre chose. Certains employés de Google savaient qu'OpenAI avait récolté des vidéos YouTube pour en tirer des données, comme l'indique The New York Times. Mais rien n'a été fait pour arrêter cela car Google avait également utilisé des transcriptions de vidéos YouTube pour entraîner ses propres modèles d'intelligence artificielle, au risque de violer les droits d'auteur des créateurs de contenu sur YouTube.

Matt Bryant, porte-parole de Google, a été interrogé à ce sujet. Il a déclaré que l'entreprise n'avait pas connaissance des pratiques d'OpenAI et qu'elle interdisait le "scraping ou le téléchargement non autorisé du contenu de YouTube". Google prend des mesures lorsqu'il dispose d'une base juridique ou technique claire pour le faire, a-t-il ajouté.

Google s'est, en parallèle, protégé de toute accusation puisque ses règles l'autorisent à exploiter les données des utilisateurs de YouTube afin de développer de nouvelles fonctionnalités pour la plateforme vidéo. Toutefois, il n'était pas clair si Google pouvait utiliser les données de YouTube pour créer un service commercial au-delà de la plateforme vidéo, tel qu'un chatbot.

La nécessité d'entraîner les modèles sur des données soumises au droit d'auteur

Si l'affaire dévoilée par le quotidien américain est pour le moins complexe et met le doigt sur un accord plus ou moins tacite entre Google et OpenAI, il n'en reste pas moins qu'OpenAI a été plus ou moins clair quant à son besoin excessif en données. Début janvier, alors que la start-up sait depuis quelques jours qu'elle fait l'objet d'un procès intenté par The New York Times pour utilisation de millions d'articles destinés à entraîner le modèle qui alimente ChatGPT, elle fait un aveu de taille.

OpenAI insiste que "l'entraînement de modèles d'IA à l'aide de contenus accessibles au public sur Internet est couvert par le principe de fair use", une provision du droit américain qui permet l'utilisation d'œuvres protégées dans certains cas de figure bien définis (par exemple l'illustration d'un propos).

L'entreprise se met en scène comme étant magnanime malgré ce droit auto-proclamé, rappelant qu'elle propose depuis l'été 2023 une option de refus d'inclusion (que le New York Times a adopté en août 2023) dans ses bases d'entraînement. Option qui est arrivée après les faits, et après plusieurs procès de la part d'auteurs (toujours en cours).

L'impossibilité d'entraîner les meilleurs modèles d'IA sans documents protégés par le droit d'auteur

En parallèle, dans le cadre d’une enquête de la commission des communications et du numérique de la Chambre des Lords du Royaume-Uni sur les grands modèles de langage, OpenAI a été invité à témoigner par écrit. Et la réponse n'est pas vraiment ce que l'on peut qualifier de convaincante. Interrogée sur les possibilités de construire des modèles sans utiliser de données protégées par le droit d'auteur, la start-up admet "qu'il serait impossible d'entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser de documents protégés par le droit d'auteur".

De même, "limiter les données d'entraînement aux livres et dessins du domaine public créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas de fournir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui".

Vous souhaitez être en veille sur l’actualité du secteur de l’intelligence artificielle ? Inscrivez-vous gratuitement à la newsletter IA Insider.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

LES ÉVÉNEMENTS USINE DIGITALE

Tous les événements

Les formations USINE DIGITALE

Toutes les formations

ARTICLES LES PLUS LUS