2017 - 2027 = décennie interface voix
11/12/2017
Je pensais faire de ce billet le cinquième et dernier de la série sur les technologies qui vont dominer la période 2017 - 2027.
Première partie : technologies clefs 2007 - 2017.
Deuxième partie : microprocesseurs spécialisés.
Troisième partie : Intelligence Artificielle et Machine Learning.
Quatrième partie : 5G et Edge Computing.
Le thème des interfaces entre les personnes et le monde numérique devient si important que je vais lui consacrer tout ce billet.
1990 - 2017 : interfaces clavier-souris et tactiles
Entre 1990 et 2010, pendant 20 ans, les interfaces claviers - souris étaient les modes de communication dominants avec les objets numériques, PC Windows et Macintosh.
Depuis 2011, le nombre de PC vendus baisse, année après année.
L’interface tactile sur objets mobiles s’est imposée sur la décennie 2007 - 2017, poussée par les smartphones. Le smartphone est encore la star du marché en 2017, même si la croissance des ventes se ralentit.
Sur le troisième trimestre 2017, les ventes de smartphones ont augmenté de 3 % quand les ventes de PC ont continué à baisser de 4 %.
En nombre d’objets vendus, les smartphones ont gagné la bataille : il c’est vendu 5,7 fois plus de smartphones que de PC pendant cette période.
Je pronostique qu’à partir de 2021 la courbe des ventes de smartphones aura la même forme que celle des PC depuis 2011, une baisse, lente et continue.
Il suffit d’écrire « death of the smartphone » dans son moteur de recherches préféré pour voir apparaître des dizaines d’articles qui annoncent la prochaine disparition des smartphones tels qu’on les connait aujourd’hui.
- La mort du smartphone est plus proche que vous ne le pensez.
- Le smartphone va mourir un jour et Apple, Google, Microsoft et Facebook font la course pour le tuer.
- La mort des smartphones, oui, elle arrive.
On me pose souvent la question : quels objets vont prendre la place des smartphones ? Ce n’est pas la bonne question…
La question à poser : quelle interface va se substituer à l’interface tactile ?
2017 - 2027 : Interfaces voix
Quelle sera l’interface vedette des années 2017 - 2027 ? Le suspense a disparu :
La voix prendra le relais du tactile
Le mouvement a commencé dans le grand public : on estime à 2 milliards le nombre d’utilisateurs de ces interfaces voix en 2021. Ces prévisions ne prennent pas en compte les usages professionnels.
Les interfaces voix sont déjà présentes sur de nombreux objets tels que les smartphones ou les GPS dans les voitures. Depuis 2015, une nouvelle génération d’objets auxquels on peut « parler » à fait son apparition dans les foyers, les « smart speakers », hauts parleurs intelligents. Amazon a été le premier avec sa gamme Echo et domine le marché ; Google a rapidement suivi avec « Home » et ces deux membres du club GAFA font la course en tête.
Apple avait annoncé son HomePod pour la fin de l’année 2017, mais ratera l’importante période des ventes pendant les fêtes ; ce produit ne sera pas disponible avant 2018.
Aujourd’hui, Microsoft n’a pas d’offre comparable ; ceci explique une annonce pour le moins surprenante : un accord avec… Amazon pour que Echo « parle » aussi Cortana. La raison « officielle » est que l’on combine le meilleur d’Alexa dans le grand public avec le meilleur de Cortana dans l’entreprise. Permettez-moi d’être très sceptique : c’est un signe de faiblesse de Microsoft qui ne veut pas que Cortana meure trop vite, comme Windows Phone. Je reviendrai plus loin sur l’annonce faite à AWS Re-Invent de l’offre « Alexa for Business » ; elle laisse très peu de place pour… Cortana !
Un combat sans merci se prépare entre les « anciens », rois du tactile, Google et Apple, et les nouveaux, rois de la « voix », Amazon et…Google. Les entreprises qui domineront les interfaces voix seront, en 2027, les leaders des mondes numériques grand public et professionnels.
On assiste actuellement à une guéguerre ridicule entre Amazon et Google sur ce thème :
- Amazon refuse de vendre les Chromecasts, Google Home, et des produits Nest, tous fabriqués par Google.
- Google refuse que les utilisateurs d’Echo et Fire TV (équivalent Chromecast de Google) d’Amazon accèdent à YouTube.
C’est un signe avant-coureur des combats entre ces deux géants ; ils seront beaucoup plus violents dans les années qui viennent !
Interfaces voix : composants techniques
Derrière l’apparente simplicité des interfaces voix se cache une grande complexité technique, que je présente dans ce schéma.
De haut en bas :
1 - Une personne pose une question, émet une requête vocale, dans son domicile, son bureau, sa voiture ou son usine.
2 - Des objets très différents vont enregistrer ce signal sonore. Il suffit en pratique d’un micro et d’un haut-parleur pour la réponse. Ils seront de plus en plus invisibles : on n’aura pas besoin de savoir exactement où ils sont.
Parmi les plus répandus :
- Un smartphone
- Un haut-parleur intelligent
- Un GPS dans une voiture
- Une montre connectée
3 - Des réseaux sans fil, 3G, 4G, 5G, Bluetooth ou WiFi qui transmettent le signal reçu. Ces réseaux sont invisibles car sans fil.
Ces messages sonores arrivent ensuite sur des outils numériques très puissants, invisibles eux aussi, qui vont :
4 - Décoder les messages vocaux et les traduire en texte.
5 - Utiliser pour cela sur des solutions d’Intelligence Artificielle, de Machine Learning et de NLP, Natural Language Processing.
6 - L’essentiel des traitements et des données nécessaires est pris en charge par des clouds publics.
Il est important de comprendre toute la complexité, la puissance, l’intelligence qui permet à un Google Home de répondre en moins d’une seconde à une question en apparence aussi simple que : « Quel temps fera-t-il à Valencia mercredi prochain ? »
Quels sont les fournisseurs capables de jouer un rôle important dans cette révolution des interfaces voix ?
Interfaces voix : principaux acteurs
Surprise ! On retrouve une fois de plus nos grands amis GAFAM, Google, Amazon, Facebook, Apple et Microsoft.
Dans ce tableau je présente la situation actuelle des points forts, des points faibles des GAFAM.
1 - Smartphones : ce sont, aujourd’hui, et de très loin, les objets les plus nombreux disposant d’interfaces voix. Google contrôle 87 % du marché mondial avec Android, Apple 13 % avec iOS. Amazon, Facebook et Microsoft ont la même part de marché : 0 %.
2 - Interfaces voix : seul Facebook est absent de cette catégorie. Les quatre autres ont chacun leur solution, propriétaire.
3 - Smart Speakers : fin 2017, Amazon et Google sont les seuls à commercialiser des Smart Speakers. Apple devrait proposer HomePod dans la première moitié de 2018. Facebook et Microsoft n’ont rien annoncé pour le moment.
4 - Intelligence Artificielle : Google est le plus avancé dans ce domaine, suivi d’Amazon et Facebook. Les solutions de Microsoft et Apple sont moins performantes.
5 - Infrastructures Cloud : les lecteurs de ce blog ne seront pas surpris d’apprendre que Google, Amazon et Microsoft dominent ce marché. Facebook dispose d’infrastructures très performantes pour ses usages internes et Apple est en retard dans ce domaine.
6 - Multilingues : La maîtrise des langues est essentielle dans le domaine des interfaces voix ; Google est le leader incontesté et Amazon est en retard.
Début 2018, les forces en présence sont les suivantes :
- Google fait la course en tête : avec plusieurs milliards de smartphones Android et Home, Google peut déployer Google Now sur un très grand nombre d’objets. Son deuxième avantage est la maîtrise des langues comme l’illustre son annonce des Earbuds, écouteurs Bluetooth capables de traduire en temps réel 40 langues.
- Amazon et Apple sont bien placés, même s’il leur manque des éléments clefs comme l’accès aux smartphones pour Amazon.
- Microsoft et Facebook ferment la marche : ils sont en retard dans de nombreux domaines.
Il ne faut pas oublier les champions chinois, les BATX : Baidu, Alibaba, Tencent et Xiaomi. Ils ont tous déjà annoncé des Smart Speakers. Baidu, Alibaba et Tencent sont très avancés dans le Cloud, l’intelligence artificielle et les interfaces voix.
Ils déploient logiquement en priorité ces outils sur leur marché national, aux 1300 millions de clients potentiels.
Quand décideront-ils d’offrir eux aussi des solutions multilingues ? Je n’ai pas de réponses à cette question, par contre je suis convaincu qu’ils ont les compétences humaines et techniques pour le faire.
En Corée, Samsung a de grandes ambitions dans les interfaces voix, avec sa solution Bixby. Est-ce que ce sera suffisant pour se faire une place au soleil ? Je n’en suis pas convaincu.
Interfaces voix : grand public et entreprises
Comme toujours, c’est dans le grand public que des solutions innovantes se diffusent en priorité et les interfaces voix n’échappent pas à cette règle.
Quelle sera la place des interfaces voix dans les entreprises ? Pour répondre à cette question, il faut s’interroger sur l’offre et la demande de solutions.
L’offre professionnelle :
1 - Microsoft propose Cortana pour des usages professionnels, en particulier dans Office 365. On peut aussi installer Cortana sur un téléphone Android, mais les premiers retours d’expérience ne sont pas très encourageants !
2 - Amazon a annoncé « Alexa for Business » durant la conférence Re-Invent organisée par AWS fin novembre 2017.
3 - Google : il n’est pas nécessaire d’être un grand devin pour prévoir que « Google Now for Enterprise » sera disponible dans les premiers mois de 2018.
La demande professionnelle :
Quand j’évoque le sujet des interfaces voix dans le monde professionnel, on m’oppose souvent cette objection : parler à ses applications numériques dans nos bureaux, cela va vite devenir insupportable et tout le monde saura quelles sont les questions que je pose.
Cette objection est logique, car exprimée par des personnes qui travaillent dans les bureaux et les sièges sociaux des entreprises, mais… elles ne sont pas les premières clientes des interfaces voix.
Les opérationnels, les personnes en usines, sur le terrain, qui conduisent des chariots élévateurs ou des camions seront les premiers bénéficiaires des interfaces voix. Leurs mains, leurs yeux sont utilisés en priorité pour leurs activités métiers et les interfaces classiques, souris ou tactiles, sont mal adaptés à leurs modes de travail.
Les équiper d’un casque Bluetooth, installer dans une usine des petits boîtiers de type Alexa Dot, qui coûtent moins de 50 €, permet de créer des environnements professionnels où la voix devient l’interface le plus efficace, le mieux accepté par les salariés.
Prochaines étapes
Toutes les entreprises doivent, immédiatement, se préparer à l’arrivée des interfaces voix. Pour ce faire, je vous propose de développer en 2018 deux ou trois « Voicebots », des applications « SoE », Systems of engagement, qui privilégient les environnements industriels et les clients internes opérationnels.
Vous pourrez, en 2018, choisir parmi un très grand nombre d’objets adaptés aux environnements professionnels permettant des interactions voix avec ces applications numériques de nouvelle génération.
Synthèse
Un mot clef résume ces nouvelles interfaces voix : invisibilité !
Le dialogue entre une personne et un environnement numérique deviendra aussi naturel que celui qui s’établit entre deux personnes en face à face. Un artéfact, clavier, souris, écran tactile… ne sera plus nécessaire pour établir la communication.
La bouche et les oreilles sont les moyens les plus naturels de l’homme pour communiquer ; en 2027, nous les utiliserons en priorité pour dialoguer avec notre environnement numérique, personnel et professionnel.
En 2028, quand on se posera la question de savoir quel changement technologique aura le plus marqué la période 2017 - 2027, je suis prêt à parier que la réponse sera : les interfaces voix.
Plus grande innovation numérique de la période 2007 - 2017 : interfaces tactiles.
Plus grande innovation numérique de la période 2017 - 2027 : interfaces voix.