Spotify expérimente elle aussi avec l'IA. Après un DJ basé sur ChatGPT, l'entreprise vient de dévoiler un programme de podcasts entièrement traduits par l'IA. L'idée est de doubler intégralement le podcast en reproduisant la voix originale et les intonations du créateur.
Spotify explique qu'un tel système permet de reproduire le style du créateur original, ce qui offre une expérience d'écoute plus authentique et naturelle qu'avec un doublage standard. « Un épisode de podcast enregistré en anglais peut désormais être disponible dans d'autres langues, tout en conservant les caractéristiques vocales distinctives de l'orateur », précise l'entreprise.
Les technologies d'IA liées à la reproduction de voix ont grandement progressé ces derniers mois. YouTube va bientôt proposer des doublages générés par IA, tandis que la startup HeyGen a fait du bruit grâce à son système doublant de manière crédible n'importe quelle vidéo. Apple planche aussi sur le sujet et propose aux utilisateurs d'iOS 17 d'enregistrer une copie de leur voix, qui pourra servir à s'exprimer dans les conversations face à face ou via FaceTime.
Accessibilité : comment iOS 17 peut créer une copie de votre voix
Spotify explique avoir signé un partenariat avec une poignée de podcasters pour traduire leurs programmes. L'entreprise va commencer par une première fournée en espagnol, tandis que des versions en français et en allemand apparaitront « dans les prochains jours et les prochaines semaines ». Une page dédiée recensant les épisodes traduits a été mise en ligne.
Do you dream of a world where some of the top podcasts would be spoken in your native language? Well, that’s now possible. We’re excited to pilot Voice Translation, a groundbreaking feature powered by AI that translates podcasts into additional languages—all in the podcaster’s… pic.twitter.com/7ebVwF99hD
— Spotify News (@SpotifyNews) September 25, 2023
La traduction se base sur de nouveaux outils d'OpenAI annoncés ce matin. On y trouve notamment « un nouveau modèle de synthèse vocale », capable de générer une voix « à partir d'un simple texte et de quelques secondes d'échantillon de parole ». La diffusion de cet outil sera limitée, OpenAI voulant éviter que celui-ci ne soit utilisé à mauvais escient.