BLOG | Ok Klee ! Parle-moi de vocal !

17/01/2020

Après des milliers, des millions d’enceintes connectées et d’assistants vocaux vendus par les GAFAM, soigneusement déposés sous les sapins puis déballés et enfin placés dans les foyers et les cuisines du monde entier, quel meilleur moment que ce début d’année pour évoquer le vocal ?

A en croire les évangélistes de tout poil, « Voice is the next big thing » et révolutionnera nos vies en profondeur avec un potentiel de transformation comparable à celui d’Internet ! Le vocal viendra « de partout » pour en paraphraser d’autres. Au-delà de cet engouement, peut-être légèrement exagéré, c’est un signal important qui nous pousse, chez Klee Group, à analyser et expérimenter cette technologie.

Qu’est-ce que le vocal ?

Jusqu’à récemment, le vocal comprenait deux grandes familles de technologies : le « SpeechToText », autrement dit la capacité à transformer de la voix en texte (ou reconnaissance vocale) et le « TextToSpeech », la capacité à faire l’inverse (transformer du texte en voix ou synthèse vocale).
Après avoir longtemps bataillé pour être suffisamment fiables, ces deux technologies ont pleinement profité des nouvelles potentialités offertes par l’intelligence artificielle, dont les réseaux de neurones. Ces fonctionnalités sont aujourd’hui matures et sont accessibles au plus grand nombre - elles sont d’ailleurs intégrées aux navigateurs web et aux smartphones.

Les limites de ces technologies commencent à être atteintes et dépassent les frontières du texte. La transcription de la parole en texte est une opération destructive qui aboutit à une perte d’informations. En effet, la voix c’est également, en plus du texte, une intonation, des bruits ambiants (une personne qui parle à côté, de la musique etc…) autant d’éléments susceptibles d’apporter des informations précieuses au fournisseur du service numérique ou à un interlocuteur. Même problème dans le cas de la synthèse vocale, où toute phrase prononcée embarque avec elle une image, des impressions, des intentions. Les marques travaillent avec les spécialistes du design vocal pour construire une voix qui les représente au mieux.

On parle donc aujourd’hui de « SpeechToContext » et de « ContextToSpeech ».

Les usages, aujourd’hui

Dans l’immobilier, il y a trois critères importants : l’emplacement, l’emplacement et l’emplacement. Dans la technologie même combat avec trois critères : les cas d’usages, les cas d’usage et les cas d’usage ! Pour trouver sa place de manière pérenne dans un écosystème de plus en plus riche, une technologie doit s’attacher à des cas d’usage réels qui démontrent sa pertinence.
A ce jour, les fonctions (ou « skills ») les plus utilisées sur Alexa sont :

  • Poser une question (Par exemple : Quelle est la capitale du Laos ?)
  • Ecouter de la musique
  • Demander la météo
  • Mettre une alarme ou un minuteur

Il n’est pas sûr que cela soit suffisant pour transformer nos vies durablement, mais ne soyons pas trop hâtifs dans nos jugements car, à sa sortie, l’iPhone d’Apple ne jouait « que » le rôle de téléphone, d’accès mobile à Internet et lecteur de musique… Aujourd’hui, les smartphones constituent la pièce maîtresse de nos usages du digital. Tous les espoirs sont donc permis.

Au-delà des questions qui sont posées à ces assistants, les usages de ces derniers se généralisent par le biais de nombreux objets connectés mais restent aujourd’hui globalement limités aux sphères privées. On peut citer la maison avec les enceintes connectées comme Amazon Echo, la voiture avec Google Assistant via Android Auto ou Siri via Apple CarPlay. Le vocal n’a pas encore envahi les open-spaces, ni les bureaux traditionnels, ni les espaces publics.

Les usages, demain

Chez Klee , nous pensons que le vocal offre des potentialités riches et prometteuses. Nous nous intéressons donc activement à ce sujet et en particulier à son intégration :

  • aux espaces de travail numériques (« digital workplaces »),
  • au « digital branding » (image de marque digitale),
  • et de manière native dans nos applications professionnelles (« business apps ») avec la DigitalFactory.

Plus largement, les technologies vocales ouvrent la voie à de nouvelles interactions avec les utilisateurs dans les applications métiers. Les cas d’usage les plus propices sont ceux où les interactions usuelles (graphiques, tactiles et manuelles) ne sont pas ou plus exploitables. Nous vous en proposons un florilège…

Au premier chef, on peut citer l’Industrie 4.0 et plus globalement tous les environnements industriels dans lesquels les utilisateurs des systèmes numériques ont déjà les yeux et les mains occupés pour réaliser des tâches techniques et minutieuses, voire dangereuses.

Les environnements VR (Réalité Virtuelle) et AR (Réalité Augmentée) sont aussi de bons candidats permettant d’interagir avec l’utilisateur tout en maintenant l’immersion : dans un contexte industriel (guidage audio d’un technicien lors d’une manipulation complexe), d’apprentissage (simulateur de conduite ou de pilotage), récréatif (interaction avec les personnages d’un jeu vidéo en VR) ...

Les serveurs vocaux interactifs (SVI) pourraient également figurer parmi les premiers bénéficiaires des technologies vocales : c’est peu dire que l’expérience client y gagnerait en fluidité et en efficacité ! Par exemple, vous pourriez tomber sur le bon téléconseiller du premier coup, sans devoir naviguer laborieusement dans une arborescence de questions qui ne correspondent pas à vos besoins (« tapez étoile pour revenir à l’accueil »).
De plus, il ne sera plus nécessaire de vous souvenir du troisième prénom de mamie Henriette pour vous authentifier : votre signature vocale à elle seule pourrait suffire !

Avez-vous déjà cuisiné à l’aide d’un robot connecté ? Via une commande vocale, ce dernier pourrait vous rappeler le nombre d’œufs nécessaires pendant que vous avez les mains dans la farine ! Les pionniers du domaine se sont d’ailleurs aperçus qu’il ne suffisait pas de vocaliser une recette à partir d’un texte, mais qu’une réflexion complète était requise pour garantir l’ergonomie de l’interface vocale.

Lors de votre dernier voyage en train, une petite voix a sûrement écorché vos oreilles depuis les haut-parleurs de la gare. Vous la reconnaissez entre mille. Eh bien demain, chaque marque aura sa propre voix, sa propre identité vocale. Il ne suffira plus aux marques d’attirer les yeux des clients avec un logo percutant, il faudra également charmer leur ouïe.

Votre grand-père malade a chuté et le téléphone est à l’autre bout du salon ? Rassurez-vous, trois mots lui suffiront pour appeler les secours.

Vous cherchez à joindre un service clients pour la troisième fois sans succès ? Le ton exaspéré de votre voix sera détecté et déclenchera une alerte auprès d’un téléconseiller, qui ne manquera pas de vous rappeler !

Dans quelques années, la rédaction des procès-verbaux de réunions ou des comptes-rendus médicaux sera grandement facilitée par l’utilisation d’applications aux oreilles affutées, qui sauront coucher sur le papier les discussions et conclusions du jour.

Quant à l’anglais… Votre accent s’améliorera grandement après quelques exercices pratiques supervisés par un assistant vocal intraitable, qui vous fera répéter autant de fois que nécessaire les mots délicats ! (« My tailor is rich… »)

Plus globalement, les nouveaux usages peuvent se placer dans deux catégories où le vocal joue le rôle :

  • D’intermédiaire « neutre et transparent » entre humains : par exemple quand on demande à son enceinte connectée de téléphoner à un ami
  • D’interlocuteur direct en tant qu’interface homme-machine : par exemple quand on souhaite connaître la météo en interrogeant directement une application

L’avenir nous dira si ces applications voient le jour. Pour les plus impatients, il est déjà possible de se projeter dans le futur grâce à l’imaginaire débordant des auteurs de science-fiction, cinéastes et autres visionnaires !

De nouveaux enjeux

Le vocal et ses potentialités viennent également, et comme toute technologie, avec leur lot d’enjeux stratégiques.

Un enjeu de souveraineté numérique : la captation de ce nouveau marché par les entreprises américaines et chinoises en tirant parti de leur position hégémonique sur le numérique en général. Ces entreprises poussent ce secteur du vocal vers le modèle de la place de marché en ligne (« marketplace ») et de l’intermédiation qu’elles maîtrisent parfaitement.

Conséquences logiques de la souveraineté numérique, des enjeux de souveraineté économique et de maîtrise de l’information. On peut imaginer qu’à l’instar des autres technologies numériques, les technologies vocales vont soulever des questions :

  • de localisation de la valeur ajoutée et de sa taxation concomitante ;
  • de localisation de l’emploi ;
  • d’accès à l’information : les algorithmes fourniront-ils les mêmes résultats pour une recherche vocale que pour une recherche sur internet ? Quel résultat sera proposé en premier pour une réservation au restaurant ? Quels articles de journaux seront accessibles sous forme vocale ?

Un enjeu de sécurité et de confidentialité : à l’heure des « Deep Fake » de plus en plus réalistes qui permettent l’usurpation d’identité sur les supports numériques, la voix devient ainsi une donnée personnelle à protéger, et encore d’avantage si elle est utilisée comme une information biométrique. Les données vocales sont aujourd’hui largement prélevées dans un contexte privé (notre cuisine ou notre salon !) pour être ensuite traitées à l’autre bout du mondeavec l’accord plus ou moins tacite de l’utilisateur. Voilà un point qui doit éveiller notre vigilance.

Un enjeu d’inclusion et d’accessibilité : le vocal permet d’inclure dans le numériquecertaines populations qui aujourd’hui en sont le plus éloignées: séniors, personnes présentant des difficultés de lecture, personnes à mobilité réduite, malvoyants. Mais qu’en sera-t-il des malentendants et des sourds-muets ?

Un enjeu de pérennité de l’information : dans le monde du tout vocal, commentassurer la transmission d’information ? Le texte a démontré ses capacités à perdurer sur des millénaires. Peut-être devrons-nous nous inspirer de civilisations à tradition orale ?

Un enjeu éthique : peut-on se fier à une interface vocale dont le fonctionnement est défini et contrôlé à distance ? Avec le vocal, ne franchit-on pas un nouveau pas vers unenvironnement de travail et de vie virtuel ? Peut-on craindre que l’usage intensif d’interfaces vocales dès le plus jeune âge favorise l’illettrisme ? Quels métiers pourraient être réalisés par un robot doté d’une interface vocale plutôt que par un humain ? Y aura-t-il un « droit à l’oubli » dans le domaine vocal ?

En attendant l’avènement de ce monde vocal et de vous retrouver par podcast, merci à vous d’avoir lu ce texte !