S’il n’a pas pour habitude de rester discret, Xavier Niel a plusieurs fois surpris par sa capacité à investir dans des projets naissants, ou de petites start-ups françaises qui peinaient à éclore. Depuis 2023, il a monté avec Eric Schmidt (ancien patron de Google) et Rodolphe Saadé (patron de CMA-CGM) un laboratoire dédié à l’intelligence artificielle et aux moteurs conversationnels. Chacun a versé 100 millions d'euros au pot, afin de démarrer le laboratoire.
Meet Hibiki, our simultaneous speech-to-speech translation model, currently supporting 🇫🇷➡️🇬🇧.
— kyutai (@kyutai_labs) February 6, 2025
Hibiki produces spoken and text translations of the input speech in real-time, while preserving the speaker’s voice and optimally adapting its pace based on the semantic content of the… pic.twitter.com/JOmCcC5vji
L’idée a été présentée à Station-F le 17 novembre 2023 par les trois protagonistes, entourés des six premiers développeurs à faire partie de l’aventure, nommée Kyutai, comme le présentait Numérama. Il a fallu quasiment un an pour voir apparaître les premiers fruits du projet, avec Moshi, un moteur conversationnel quasi-instantané, pouvant interagir avec les humains par reconnaissance vocale et donnant ses réponses de toute voix. Si les résultats sont là dans leur globalité, le moteur cependant quelques soucis, pouvant entrer dans une boucle où il semble se répondre à lui-même.
Mais ce n’était que le premier élément. Kyutai présente maintenant Hibiki, qui promet des traductions instantanées. Si l’idée ne paraît pas nouvelle, elle rajoute cependant un détail qui peut avoir son importance, surtout pour les films et vidéos : elle reprend la voix de l’original pour donner la traduction, donnant l’impression que c’est la même personne qui parle dans votre langue.
Si d’autres ont pu proposer cette idée, c’est la première fois que celle-ci est combinée avec un moteur de traduction en temps réel. Il est proposé en deux versions, une hébergée dans le cloud, l’autre en local sur un smartphone. Des limitations sont cependant bien présentes pour le moment, le moteur se contentant de la traduction anglais/français, et à des extraits de 120 secondes. La présentation complète devrait intervenir durant le sommet de l’intelligence artificielle organisé par la France, les 10 et 11 février.