in

Apple, Anthropic et d’autres entreprises ont utilisé des vidéos YouTube pour former l’IA

PLUS DE 170 000 VIDÉOS YOUTUBE UTILISÉES POUR ENTRAÎNER DES SYSTÈMES D’IA SANS AUTORISATION

Selon une enquête menée par Proof News et en collaboration avec Wired, plus de 170 000 vidéos YouTube font partie d’un gigantesque ensemble de données utilisé pour entraîner des systèmes d’IA pour certaines des plus grandes entreprises technologiques. Apple, Anthropic, Nvidia et Salesforce figurent parmi les sociétés technologiques ayant utilisé les données des "sous-titres YouTube" qui ont été extraits de la plateforme vidéo sans autorisation. L’ensemble de données d’entraînement est une collection de sous-titres tirés de vidéos YouTube appartenant à plus de 48 000 chaînes, sans inclure les images des vidéos.

VIDÉOS DE CRÉATEURS POPULAIRES COMME MRBEAST ET MARQUES BROWNLEE UTILISÉES DANS L’ENSEMBLE DE DONNÉES

Des vidéos de créateurs populaires tels que MrBeast et Marques Brownlee font partie de l’ensemble de données, tout comme des extraits de médias d’information comme ABC News, la BBC et The New York Times. Plus de 100 vidéos de The Verge apparaissent dans l’ensemble de données, ainsi que de nombreuses autres vidéos de Vox.

TRANSPARENCE LIMITÉE DES ENTREPRISES D’IA CONCERNANT LES DONNÉES UTILISÉES

Les entreprises d’IA sont rarement transparentes sur les données utilisées dans leurs systèmes d’IA ; la manière dont le contenu YouTube est spécifiquement utilisé a été une question clé ces derniers mois. En mars, lorsqu’OpenAI a dévoilé son puissant outil de génération vidéo, Sora, la CTO Mira Murati a évité à plusieurs reprises les questions sur la formation du système à partir de vidéos YouTube.

RÉACTION DE YOUTUBE ET OUTIL DE RECHERCHE INTERACTIF

YouTube n’a pas immédiatement répondu à la demande de commentaire de The Verge. Dans le cadre de son enquête, Proof News a également publié un outil de recherche interactif. Vous pouvez utiliser sa fonction de recherche pour voir si votre contenu – ou celui de votre YouTuber préféré – apparaît dans l’ensemble de données.

L’IMPORTANCE DE LA CONFORMITÉ AUX CONDITIONS D’UTILISATION DES PLATEFORMES

Dans des interviews antérieures, le PDG de YouTube Neal Mohan a déclaré que l’utilisation de contenu vidéo pour former des systèmes d’IA – y compris les transcriptions – violerait les conditions d’utilisation de la plateforme. Et en mai, lors d’un épisode de Decoder, le PDG de Google, Sundar Pichai, a convenu avec l’évaluation de Mohan selon laquelle si OpenAI avait effectivement formé Sora à partir du contenu YouTube, cela aurait enfreint les conditions de YouTube.

Sources:

Proof News

The Atlantic

Reuters

The Wall Street Journal

CONTINUEZ À SURVEILLER L’ÉVOLUTION DE LA RELATION ENTRE LES ENTREPRISES D’IA ET LES DONNÉES UTILISÉES

What do you think?

Written by Barbara

Leave a Reply

Your email address will not be published. Required fields are marked *

Le film “The Deliverance” de Lee Daniels ne peut pas chasser les démons dans la nouvelle bande-annonce

Cinq futurs pour le HomePod d’Apple avec un écran