Depuis son lancement en 2006, Google Maps ne cesse d’évoluer. On ne peut pas vraiment en dire autant d'Apple Plans qui semble progresser moins vite, notamment en matière de qualité des données, comme une étude récente le montre (lire : La stagnation des cartes d’Apple face à Google Maps).
Pour autant, cela ne veut pas dire qu’Apple ne modifie pas ses cartes. Tout comme chez Google, il y a de petits ajustements permanents, même si l’étude souligne que ces changements trahissent souvent des confusions de données. De façon générale, la qualité des cartes conçues par Apple pose encore problème et l’entreprise va devoir mettre beaucoup de moyens si elle veut réduire son écart avec Google Maps.
Depuis un an, l’entreprise a d’ailleurs mis en place un outil de vérification des données affichées sur ses cartes. À la suite de notre précédent article sur Plans, un membre d'une équipe de travailleurs indépendants qui améliorent le service nous a fourni des informations confidentielles. En quoi consiste son travail ? Comment Apple entend améliorer Plans ? Voici un aperçu du dessous des cartes.
Plans amélioré par des freelances payés à la tâche
Pendant longtemps, Apple a fait confiance à ses propres employés pour améliorer ses cartes. Certains vendeurs en Apple Store étaient formés pour se déplacer dans leur ville et améliorer certains points, comme le nom des quartiers. C’était une approche intéressante au lancement pour améliorer rapidement les données, notamment autour des Apple Store, mais elle ne pouvait pas suffire pour le monde entier.
D’après nos informations, ce programme n’a pas totalement disparu, mais il n’est plus vraiment actif et probablement sur la voie de sortie. Le portail interne est toujours disponible et l’app spécifique qui permettait de remonter les données peut toujours être téléchargée par les employés qui participaient au programme à l’origine. Néanmoins, le constructeur n’accepte plus de nouveaux venus et ne forme plus personne.
À la place, Apple a mis en place un programme systématique et qui ne dépend plus de ses vendeurs. Ni même de ses employés en fait, puisque TryRating, la plateforme qui est utilisée, est pensée pour être exploitée par des travailleurs indépendants. En France en tout cas, c’est une entreprise spécialisée dans le travail à domicile qui a obtenu le contrat.
C’est ce sous-traitant qui se charge ensuite de recruter des freelances et de les former pour utiliser la plateforme conçue par Apple. Ce n’est pas un emploi à plein temps, mais un travail payé à la tâche, avec des limites très claires dans le contrat : impossible de travailler plus de vingt heures par semaine, pour un maximum de 600 tâches par semaine. Chaque tâche est payée 54 centimes et il faut en moyenne deux minutes pour la terminer. Il s'agit en fait d'une plateforme similaire au Mechanical Turk d'Amazon, où des centaines de milliers de petites mains à travers le monde réalisent des micro-tâches pour quelques centimes.
L'activité n'est pas continue, il peut y avoir des périodes de disette. Les tâches arrivent par lot, quelques centaines ou quelques milliers à la fois. Tous les travailleurs s’en chargent alors en fonction de leur disponibilité et dans la limite des règles imposées. Depuis le lancement du système en août, notre informateur a eu 9 000 tâches à effectuer, un chiffre anormalement bas qui s'explique par les ajustements de TryRating tout au long de l’année sur lesquels nous reviendrons.
Apple veut s’assurer de la pertinence des résultats de Plans
Au juste, en quoi consiste une tâche ? Les travailleurs doivent valider les résultats de recherche présentés par Plans. Apple soumet aux testeurs les termes recherchés et les résultats ou suggestions de l’app, ainsi que le contexte : la position de l’utilisateur et surtout ce qui était affiché sur son appareil au moment de la recherche (les données sont évidemment anonymisées).
Le travail consiste à vérifier ces résultats de recherche sur deux points : sont-ils pertinents par rapport au contexte et les informations sont-elles factuellement correctes ? La réponse est parfois extrêmement simple et une dizaine de secondes peut suffire. C'est le cas par exemple quand un utilisateur cherche « Allemagne » et que Plans affiche le pays comme résultat. Dans d’autres cas, il y a une dizaine de résultats et il faut alors les vérifier un à un, ce qui peut prendre plus de vingt minutes.
On ne connaît pas les critères pour qu'une recherche effectuée par un utilisateur sur son iPhone se transforme en tâche sur TryRating. Peut-être s'agit-il d’une sélection aléatoire, ou alors de recherches qui ont été immédiatement suivies d’une autre requête, ce qui indiquerait que les premiers résultats n’étaient pas satisfaisants. Les utilisateurs ont aussi la possibilité de signaler un problème depuis l'application. Notre informateur nous a indiqué qu’il traitait fréquemment des lots ou des séries de résultats autour d’un même lieu ou d’un même thème. Une chose est sûre, les recherches vérifiées sur TryRating ne sont qu'une infime partie de la totalité des recherches effectuées.
Pour vérifier la pertinence et la qualité des données, Apple embauche des travailleurs dans le monde entier. Notre informateur étant Français, il s’occupe de recherches réalisées sur des iPhone et iPad d’utilisateurs français, ou bien de recherches effectuées en France. Cela veut dire qu’il peut avoir des résultats de n’importe où dans le monde en français, ou en France dans n’importe quelle autre langue.
Un guide précis pour vérifier les résultats
Comment juger de la pertinence d’un résultat dans un cadre aussi large ? Apple a mis au point au cours de l’année passée une série de règles, des guidelines qui doivent guider tous ceux qui améliorent les données. La version en cours est un long document de 200 pages qui décrit très précisément comment évaluer les résultats de recherche.
Le principe de base est toujours le même : chaque travailleur doit vérifier la véracité et la pertinence des résultats affichés par Plans, après une recherche effectuée par un utilisateur. Il s’agit à la fois de corriger les éventuelles erreurs factuelles, que ce soit un lieu mal placé sur la carte ou bien une adresse incorrecte, et de juger la qualité des résultats.
Pour ce dernier point, la position de l’utilisateur et ce qui était affiché sur son écran au moment de la requête entrent en ligne de compte. C’est le premier élément édicté par ces règles de conduite : la distance entre la géolocalisation du terminal et les résultats est un critère essentiel. Pour prendre un exemple, si vous êtes en France et que vous cherchez « Brest », vous voulez sans doute le port breton plutôt que la ville biélorusse.
C’est pour cette raison que les requêtes de Plans sont associées à un contexte géographique. Les petites mains de TryRating voient les termes recherchés et les résultats affichés sur la carte, mais aussi un carré gris qui indique le viewport, dans le jargon technique. En clair, c’est ce qui était affiché à l’écran de l’utilisateur au moment où il a fait la recherche, étant entendu que les résultats doivent être différents selon que l’on « regarde » la Californie ou la banlieue parisienne. Si l’appareil de l’utilisateur était dans la zone, une icône indique aussi sa position, mais ce n’est pas systématiquement le cas.
Pour juger de la pertinence d’un résultat, Apple a essayé de laisser le moins de place possible au jugement personnel. Si les guidelines comptent 200 pages, c’est précisément parce que les règles sont aussi exhaustives que possible. L’entreprise a essayé de couvrir tous les cas de figure et toutes les questions qui peuvent éventuellement se poser lors de l’évaluation.
Parmi tous les critères que les testeurs doivent juger, il y a l’intention de l’utilisateur et la pertinence des résultats par rapport à cette intention. Plusieurs niveaux ont été définis par Apple, de « navigational », qui correspond au meilleur résultat, jusqu’à « bad » pour les lieux qui ont été suggérés à tort par l’application. Ce graphique doit aider à déterminer quelle réponse choisir pour chaque résultat.
Il y a toujours une part de jugement subjectif malgré tout et c’est probablement pour cette raison qu’Apple fait appel à des humains plutôt qu’à une intelligence artificielle. Néanmoins, le document essaie de tenir compte du maximum de cas de figure et de cas particuliers pour établir des évaluations homogènes. Ainsi, la distance entre l’utilisateur et le résultat est un élément important, mais le degré d’importance du lieu à l’échelle locale, nationale ou mondiale compte aussi.
Voici l’un des exemples utilisés par Apple : une recherche depuis l'État du Massachusetts pour « Machu Picchu ». Plans suggère deux résultats : le haut-lieu historique péruvien et un restaurant de Somerville, dans la banlieue de Boston. Le premier est si connu qu’il est considéré comme le meilleur résultat, mais l’adresse locale est également pertinente dans ce contexte. Naturellement, la même recherche effectuée depuis la Belgique aurait refusé la deuxième suggestion.
Parmi tous les cas évoqués par le document, il y a des lieux qui contiennent d’autres lieux intéressants, comme une boutique au sein d’un centre commercial. Comment juger de leur intérêt ? Cela dépend de l’importance et de la rareté des lieux. Apple donne plusieurs exemples : si un utilisateur cherche le nom d’un aéroport, Plans peut afficher un terminal et le résultat sera jugé acceptable ; en revanche une boutique spécifique à l’intérieur sera considérée comme trop précise.
Les guides évoquent aussi la différence entre une ville et un État, ou bien encore entre une rue et un arrêt de bus qui porte le même nom. En fonction de la position de l’utilisateur et de ce qui était affiché sur l’appareil au moment de la recherche, mais aussi de l’importance de chaque résultat, un lieu sera jugé différemment. Voici quelques exemples qui guident ceux qui travaillent sur Plans :
Il s'agit seulement d'une poignée d'exemples représentatifs, le guide en contient de nombreux autres et les freelances sont formés avant de commencer avec plusieurs cas d’école. Sur ce point, une part de subjectivité reste inévitable et c’est pourquoi les tâches complétées sont vérifiées de manière aléatoire par des responsables. Il ne s’agit a priori pas plus d’employés d'Apple, mais ils ont certainement reçu une formation plus complète encore.
Tous les moyens sont bons… y compris Google Street View
Apple paye les freelances pour deux choses : juger de la pertinence des résultats en fonction de la recherche et du contexte ; vérifier la véracité des informations affichées. Tous les lieux présentés sur une carte doivent être vérifiés et corrigés le cas échéant, que ce soit un nom de lieu mal orthographié, une position GPS incorrecte ou une erreur dans une adresse.
Les guidelines proposent là aussi une nomenclature complète pour juger le nom de chaque lieu. Par exemple, un nom peut être jugé « correct », « partiellement correct », « faux » ou « invérifiable ». En fonction des cas, le document précise s’il faut juger un nom correct (« Apple » au lieu d’« Apple Confluence »), partiellement correct (« McDonalds » au lieu de « McDonald’s ») ou faux (« UPS » au lieu d’« USPS »). Une faute d’orthographe est jugée différemment dans le cas du fast-food, puisqu’il n’y a aucun doute, alors qu’UPS et USPS sont deux entreprises différentes.
La catégorie associée à chaque résultat et l’adresse postale de chaque lieu sont aussi vérifiées systématiquement. Tout est scruté et tout doit être validé, du pays au nom de la rue, en passant par le code postal et le numéro. Comment vérifier et éventuellement corriger ? Tous les moyens sont bons et les vérifications font souvent appel aux sites officiels des commerces ou des lieux quand c’est envisageable. Dans chaque pays, le service postal local sert de preuve pour vérifier que les adresses sont correctes.
Mais dans certains cas, il faut une preuve visuelle sur le terrain. La vue satellite fournie par Apple peut servir à vérifier qu’un centre commercial est bien placé. Parfois, c’est Street View, le service de Google, qui vient en aide pour prouver qu’un lieu est mal placé. Dans cet exemple, la preuve apportée est ce lien où l’on voit que l’adresse postale ne correspond pas au camping de la base de données d’Apple.
Apple dépend donc en partie d’un service de Google pour améliorer ses propres données, même si ce n’est qu’un dernier recours. On voit en tout cas l’avantage apporté par Street View : les photos de chaque rue ne sont pas seulement pratiques pour les utilisateurs, elles sont aussi un bon moyen pour améliorer les données.
Après avoir travaillé pendant un an sur ces règles, Apple va maintenant pouvoir soumettre davantage de tâches de vérifications. D’après notre informateur, le travail devrait reprendre dans le courant du mois du juin avec un nouvel outil et des règles à jour. Est-ce que l’on verra ensuite un progrès dans les résultats de recherche de Plans ?
En attendant de pouvoir le vérifier, on constate que les deux entreprises utilisent des méthodes très différentes pour faire progresser leur service respectif. Google tire énormément parti du crowdsourcing : la firme a créé une communauté d'utilisateurs enrichissant volontairement Google Maps. Et même si vous n'êtes pas un « guide local », l'entreprise vous pousse à améliorer son service depuis son application dédiée, son moteur de recherche générique et même tout le web via ses CAPTCHA.
L'approche d'Apple, qui consiste à payer des sous-traitants pour faire vérifier ses cartes par des travailleurs du web, est plus conservatrice. Ces petites mains, elles sont plusieurs centaines pour le marché français, selon notre informateur. Google, lui, peut compter sur ses millions d'utilisateurs.
image de une : JD Hancock (CC BY 2.0)