Ce n’est pas demain la veille que l’on tombera amoureux de Siri comme Joaquin Phoenix tombe raide dingue de Samantha, son assistante virtuelle du film Her. Mais avec iOS 11, Apple va donner à la voix de son intelligence artificielle une tessiture plus humaine, ce qui est un premier pas. D’abord pour les voix en anglais, qui n’ont jamais été aussi proches de « vraies » voix ; pour s’en rendre compte, changez la voix de Siri dans les réglages de l’iPhone et choisissez l’anglais des Etats-Unis. La comparaison n’est clairement pas à l’avantage de la voix française…
Néanmoins, Siri est encore loin de Samantha qui bénéficie de la voix de Scarlett Johansson ! Pour Alex Acero, le directeur d’Apple en charge des technologies qui se cachent derrière Siri, la voix générée par un ordinateur doit marquer « les pauses au bon moment, les bonnes intonations, une voix douce ». Il ajoute à ce cocktail un léger rendu métallique.
Wired revient sur la conception de Siri et en particulier sur un aspect technique que l’on a déjà pu traiter encore récemment (lire : En racontant n’importe quoi, Susan Bennett est devenue la voix originale de Siri). Le site a également obtenu quelques intéressantes informations sur les difficultés rencontrées par l’assistant, en particulier durant ses premières années durant lesquelles Siri a donné l’impression de faire du surplace, après un départ tonitruant.
Une entreprise fournissait en effet à Apple toute l’architecture indispensable à la reconnaissance vocale. Cette société, que la Pomme n’a jamais voulu identifier clairement (il s’agit sans aucun doute de Nuance), a été un boulet qui a empêché Siri d’avancer à son rythme. « C’était comme faire la course avec quelqu’un qui vous tirait de l’arrière », explique Greg Joswiak, le vice-président du marketing produits. Apple a toujours eu des grands projets pour Siri, « l’idée d’un assistant à qui vous pouviez parler avec votre téléphone, et lui faire faire des choses facilement ». Mais voilà, la technologie n’était pas encore au point.
Il a fallu qu’Apple prenne en main, seule, le destin de Siri. Ce qui a été le cas quelques années après le lancement de l’assistant (en 2011 en même temps que l’iPhone 4S). L’assistant s’appuie désormais sur les travaux d’intelligence artificielle de ses équipes de chercheurs, qu’Apple commence d’ailleurs à publier. L’apprentissage automatique est utile dans deux domaines : la dictée vocale pour laquelle Siri tente de saisir ce que l’utilisateur lui dit (le moteur de reconnaissance vocale identifie désormais correctement 95% des requêtes), et l’inverse, c’est à dire quand Siri prend la parole.
Siri n’est évidemment pas parfaitement au point. L’assistant a beau être le plus répandu sur la planète (il parle et comprend 21 langues et est utilisé par 375 millions d’utilisateurs), Siri est souvent comparé défavorablement à Alexa, qui est plus polyvalent avec ses nombreux développeurs, et à Google Assistant qui est bien plus au fait de l’actualité. Et puis Apple a aussi l’art de se mettre des bâtons dans les roues en ne sachant parfois pas dans quelle direction aller.
Pour Joswiak, les choses sont très claires : depuis le départ, il voulait que Siri remplisse des tâches d’assistant, une « machine à faire les choses » plutôt qu’un fort en thème capable de répondre à n’importe quelles questions, surtout les plus farfelues. « On n’a pas développé Siri pour le Trivial Pursuit », proteste-t-il. Il est vrai que l’assistant sait gérer à peu près bien les tâches un peu pénibles (création de rappels, minuteur, gestion de rendez-vous…). Siri sait aussi faire des blagues et a du répondant, mais il renvoie fréquemment (trop souvent) sur une recherche sur le web.
Apple a pris conscience des limites de Siri. Récemment, l’entreprise a embauché un « Tsar du cool » pour que l’assistant soit mieux connecté à l’écume de l’actualité, lui évitant ainsi de passer à côté d’événements qui paraissent évidents. Et le constructeur a bien l’intention de pousser les utilisateurs de ses produits à faire appel à Siri. « Les gens ont leurs habitudes », explique Acero. « S’ils ont l’habitude de taper du texte, changer ça tout d’un coup, cela demande du temps ».
La récente campagne de pub mettant en scène Dwayne “The Rock” Johnson participe de cette volonté, tout en orientant les utilisateurs vers les usages possibles de Siri (rien de trop farfelu à en croire les réclames avec The Rock). Et puis il y a le HomePod qui arrivera en fin d’année. Comme le Siri de l’Apple TV qui met l’accent sur les contenus TV (il a même remporté un Emmy), l’assistant intégré de la future enceinte devra montrer un goût certain pour la musique, entre autres choses.
L’an dernier, Apple a fini par ouvrir son assistant aux développeurs, via SiriKit. Petit à petit, les capacités du service s’enrichissent, même si ce n’est pas à la même vitesse d’une concurrence beaucoup plus ouverte. Pour Joswiak, ce n’est pas un problème : l’important, c’est que les choses soient bien faites. « Ce que nous ne voulons pas, c’est de devenir “normatif” », c’est à dire forcer l’utilisateur à devoir apprendre une syntaxe spécifique, comme : « Alexa, demande à Daily Horoscope l’horoscope du Taureau ».
Siri cherche au contraire à conceptualiser la requête pour saisir ce dont l’utilisateur a besoin, même s’il l’exprime d’une manière qui n’est pas conventionnelle. Cela demande du temps, et Apple préfère ne rien précipiter plutôt que de faire les choses à moitié. Quitte à paraitre en retrait des autres assistants…