Apple dément avoir entrainé Apple Intelligence sur des sous-titres de vidéos YouTube

Félix Cattafesta

jeudi 18 juillet 2024 à 10:30 • 42

En début de semaine, une enquête révélait comment certaines grandes boites de la tech - dont Apple - utilisaient une base de données basées sur des transcriptions de vidéos YouTube pour former leurs modèles d’intelligence artificielle. Cette source de près de 900 Go a été créée sans le consentement des vidéastes, ce qui n’a pas manqué de faire polémique. Apple a aujourd’hui clarifié les choses auprès de 9to5Mac : si elle a bien utilisé cet ensemble de données pour mettre sur pied son modèle open source OpenELM, le moteur ne sert pas à faire carburer les fonctions d’IA de son écosystème.

La base de données en question contient des textes tirés de plus de 48 000 chaînes pour un total de 173 536 vidéos. Parmi eux, de grands noms comme PewDiePie, MrBeast ou différentes émissions comme les Late Show de Stephen Colbert, John Oliver ou Jimmy Kimmel. L’affaire avait fait du bruit étant donné que les vidéastes n’étaient pas au courant de la réutilisation de leur travail. Certains youtubeurs comme MKBHD ont réagi dans la foulée via une vidéo.

Le modèle entrainé par Apple à l’aide de cette source est OpenELM, un modèle open source disponible sur GitHub pensé pour ne pas prendre trop de place et tourner localement. La page Github explique que les différents modèles OpenELM ont été « entraînés sur des ensembles de données publics » et que leur publication « vise à renforcer et à enrichir la communauté de la recherche ». Dans sa déclaration faite à 9to5, Apple affirme qu’elle n’utilise pas ce moteur pour ses fonctions d’IA ou pour le futur Apple Intelligence. Elle précise qu’elle n’a pas prévu d’en créer une seconde version.

Apple n’est pas la seule à s’être appuyée sur cette base de données : Google utiliserait les vidéos de YouTube pour ses IA, tandis qu’OpenAI aurait également moissonné la plateforme pour créer son modèle Sora. Depuis quasiment un an, Apple publie régulièrement des modèles de langage open source : on a par exemple vu arriver Ferret ou Matryoshka Diffusion pour ce qui est de la génération d’images.

MacGeneration

iGeneration

WatchGeneration

Services

Rejoignez le Club iGen

Apple dément avoir entrainé Apple Intelligence sur des sous-titres de vidéos YouTube

Pour aller plus loin :

Rejoignez le Club iGen

Actualités

Corning présente le Gorilla Glass Ceramic, encore plus résistant que le Gorilla Glass standard

App Store : cinq VPN liés à une entreprise chinoise pourtant sur liste noire aux USA

Grâce à la Nintendo Switch 2, les cartes (micro)SD Express arrivent enfin

Nintendo retarde les précommandes de la Switch 2 aux États-Unis, à cause de Donald Trump

Google propose des jeux pour Android Auto

Qualcomm abandonne la 5G mmWave avec son Snapdragon 8s Gen 4, comme Apple avec son modem C1

iOS 18.4 : les navigateurs tiers peuvent désormais installer des extensions

Silence : une application pour bloquer les appels indésirables sans abonnement

Certains utilisateurs rencontrent des difficultés avec CarPlay depuis leur passage à iOS 18.4

Test de l’iPhone 16e : pour tout le monde, ou presque

La Switch 2 est déjà disponible en précommande chez certains revendeurs, avec des promos 🆕

Guerre commerciale : le cours de l’action Apple en compote

Tentant d’éviter les taxes, Sonos mise sur le mauvais cheval

Test d'une prison pour smartphone, pour ceux qui n'arrivent pas à abandonner leur iPhone

Orange Téléphone donne maintenant le nom du spammeur qui vous appelle

L'Arcep observe une inflation des appels indésirables et abusifs chez les abonnés

Image du moment

Tests

Test de l’iPhone 16e : pour tout le monde, ou presque

Test d'une prison pour smartphone, pour ceux qui n'arrivent pas à abandonner leur iPhone

Test du Gamebaby : une coque qui transforme (mal) votre iPhone en Game Boy

Test de l'iPad A16 : il fait l'essentiel sans zèle

Test des iPad Air M3 : ils ne manquent pas d’air

Test de l'Insta360 Flow 2 Pro : le meilleur stabilisateur pour iPhone compatible DockKit (encore une fois)