La reconnaissance vocale : bien la comprendre et l’utiliser

Que l’on s’en serve sur nos smartphones, sur nos tablettes ou sur nos enceintes connectées l’intelligence artificielle et notamment la reconnaissance vocale s’ancre de plus en plus dans nos quotidiens. La voix des utilisateurs est désormais au centre de l’univers connecté proposé par les acteurs numériques. Pourtant, avec la multitude d’assistants personnels, d’enceintes connectées et d’objets fonctionnant par la voix cela peut vite devenir compliqué de s’y retrouver sur le marché de la reconnaissance vocale. Alors, que connait-on vraiment de la reconnaissance vocale ? Quelle est son application dans la vie de tous les jours et pourquoi est-elle si omniprésente aujourd’hui ? Netatmo fait le point.

Petite histoire de la reconnaissance vocale

C’est en 1961 qu’apparaît l’un des premiers outils de reconnaissance vocale au monde lancé par IBM: la IBM Shoebox. Ce n’est ensuite qu’en avril 2011 que l’actuel géant Apple lancera Siri qui est aujourd’hui mondialement connu. Il s’en suit alors plusieurs lancements de divers assistants vocaux : d’abord Google en juillet 2012 avec Google Now, Microsoft l’année suivante lance Cortana et en 2014 Amazon révèle Alexa et son enceinte connectée l’Amazon Echo.

Comment fonctionne la reconnaissance vocale ?

Définir la reconnaissance vocale

La reconnaissance vocale peut se définir comme une technologie permettant à un appareil de comprendre et analyser la voix humaine pour ensuite retranscrire chacun des mots dictés en un texte exploitable. Plus précisément, la voix est saisie via le microphone de l’appareil en fréquences sonores puis une transcription en est faite en texte écrit. La reconnaissance vocale peut être considérée comme une alternative à la saisie sur clavier / manuscrite, on la vante d’ailleurs souvent pour sa plus grande rapidité. La reconnaissance vocale peut aussi être définit comme la notion plus large de reconnaissance automatique de la parole ou RAP. La reconnaissance automatique de la parole comprend deux technologies : la dictée vocale et la commande vocale. Mais quelle est la différence entre dictée vocale et commande vocale ?

La dictée vocale : le principe est simple, il faut dicter à l’oral un texte à l’appareil qui se charge de sa transcription via un processeur.

La commande vocale : on utilise ce terme quand il s’agit de donner des ordres oralement.

En réalité la nuance entre les deux termes est très subtile. Pour résumer, on peut dire que la commande vocale donne de réelles instructions à la machine, là où la dictée vocale permet simplement de donner un certain nombre d’informations par la voix sans qu’elles soient pour autant des ordres. Afin d’améliorer toujours plus les logiciels de reconnaissance vocale le National Institute of Standard and Technology a mis au point dès 1996 le Speaker Recognition Evaluation. Ainsi, de nombreux chercheurs se servent de cet outil afin d’évaluer au fil des années la progression de la reconnaissance vocale. Il est également fréquent d’entendre parler du taux d’erreur mots qui n’est autre qu’une moyenne visant à évaluer la performance d’un logiciel de reconnaissance vocale.

Les différents composants du système de reconnaissance vocale

Le wake word ou mot de réveil : c’est la clé d’entrée, la première interaction entre l’humain et la machine dans le processus de reconnaissance vocale. C’est un mot qui va déclencher la reconnaissance vocale de l’appareil. Les mots de réveil les plus connus sont probablement “Ok Google” ou “Dis Siri”. Les wake words sont souvent courts et concis notamment car l’utilisateur doit pouvoir les prononcer facilement et rapidement. La facilité de prononciation est d’autant plus importante qu’il faut penser que dans chaque langue il peut y avoir plusieurs accents et qu’il existe une multitude de tonalités de voix etc…

Le Speech To Text : c’est un système qui permet de décomposer les mots que l‘utilisateur dicte. Il sépare les mots en petits groupes (appelés samples) afin de les associer des phonèmes. Plus simplement il permet la transcription de l’audio ou de la voix en texte écrit. Ce processus couplé à des algorithmes permet à la machine de reconnaître ce qui a été dit par l’utilisateur. Le Speech to text peut s’améliorer grâce aux techniques d’intelligence artificielle telle que le machine learning ou encore le deep-learning qui consiste à entraîner et à “faire apprendre” les réponses correctes à la machine grâce à des réseaux de neurones artificiels.

Le NLP (Natural Language Processing) : en français cette technologie est appelée traitement automatique du langage naturel. C’est un outil qui sert au traitement du langage humain à l’aide d’outils informatiques. Elle se sous-divise en 2 processus : le Natural Language Understanding (compréhension du langage naturel) et le Natural Language Generation (génération de langage naturel). Le processus de NLP intervient après le speech to text puisque c’est via cet outil que le texte est interprété par la machine.

Le Text To Speech : cette technologie aussi appelée synthèse vocale permet de transformer un texte informatique en texte sonore. Par exemple il permet de lire grâce à une voix informatisée une page web à un malvoyant. Suite au traitement du texte le logiciel établit le rythme ou l’intonation à donner au texte. Il est utilisé à la fin du processus de reconnaissance vocale car c’est grâce à cet outil que la voix de synthèse est créée pour pouvoir répondre à la demande de l’utilisateur.

Les assistants vocaux sur le marché

Enceinte connectée contrôlée via un smartphone

Depuis quelques années beaucoup de grands acteurs de la “révolution numérique” introduisent leurs propres assistants personnels sur le marché de la reconnaissance vocale. Bien qu’ils utilisent globalement les mêmes techniques de transcription de la voix et du texte chaque assistant a ses particularités selon les objectifs de son fabricant. Intégrer le système de reconnaissance de la voix au sein d’un écosystème est important pour les marques car les données des utilisateurs permettent une précision plus grande pour l’assistant vocal. Il est aussi à noter que pour faire fonctionner l’ensemble des objets connectés dans sa maison il faut passer par un système audio (enceintes connectées) vendues par les différentes marques.

Google Assistant

Lancé en 2016, le Google Assistant est devenu l’un des assistants vocaux de référence dans le monde. Néanmoins, avant son apparition la marque s’était déjà positionnée sur le marché de la reconnaissance vocale avec son assistant Google Now. Plus précisément, Google Assistant a d’abord été une extension de Google Now avant d’être désormais utilisé à part entière. L’assistant peut aujourd’hui être utilisé avec l’application Google Allo pour répondre directement aux messages à la place de l’utilisateur. Aujourd’hui Google Assistant permet aux utilisateurs d’effectuer des commandes vocales et d’effectuer diverses tâches allant de la traduction en temps réel au contrôle de la musique en passant par des recommandations du meilleur itinéraire à suivre. Les mots de réveil de cet assistant sont “Hey Google” ou “Ok Google”. L’assistant vocal de Google est conçu pour fonctionner avec tous les produits connectés de la gamme Nest (Nest Hub, Chromecast etc…). Mais ce n’est pas tout, la marque américaine a su étendre le champs d’action de son assistant vocal grâce à la compatibilité avec de nombreuses autres marques comme Netatmo par exemple. L’enceinte connectée de la marque est la Google Nest. Il existe aussi la version avec écran la Nest Hub.

Produits Netatmo compatibles avec Google Assistant :

Siri

L’assistant personnel Siri a été lancé en 2011 par Apple. Tout comme les autres assistants il traite les commandes ou recherches vocales faites par l’utilisateur. La particularité de Siri réside dans sa compatibilité uniquement avec l’écosystème Apple (Iphone, Ipad…). L’enceinte connectée d’Apple est la Homepod (existe en version Mini).

Produits Netatmo compatibles avec l’application Apple Homekit (application Apple avec laquelle les produits intelligents fonctionnant avec Siri sont intégrés) :

Alexa

C’est en Novembre 2014 qu’Amazon a lancé Alexa et au même moment son enceinte Amazon Echo. Contrairement à Siri ou Google assistant son mot de réveil est son nom “Alexa” ce qui semble légèrement plus intuitif qu’un “OK” ou un “Hey”. La force de cet assistant vocal réside dans sa très bonne connaissance des habitudes d’achats des clients sur Amazon. Lors de commandes vocales concernant un achat sur Amazon, Alexa peut proposer un référencement des articles très pertinent. C’est aussi un des assistants qui permet le plus de compatibilités avec des produits d’autres marques.

Produits Netatmo fonctionnant avec Alexa :

Bixby Voice

Moins connu que Siri ou Alexa, Bixby Voice est l’assistant personnel crée par Samsung. Bixby Voice propose dans l’ensemble les mêmes fonctionnalités que les autres assistants mais est néanmoins présent seulement sur les téléphones et tablettes Samsung. Pour le déclencher il faut dire “Hi Bixby”. Samsung précise que Bixby Voice comprends les commandes vocales de manière subtile c’est à dire qu’il est capable de différencier des demandes très proches. L’enceinte connectée de Samsung s’appelle la Galaxy Home (il existe une version Mini).

Cortana

En 2013 Microsoft a annoncé la sortie de son logiciel Cortana. Il est décrit par Microsoft comme un “assistant de productivité” qui fonctionne avec Windows. Le logiciel Cortana permet de mieux gérer les tâches sur Microsoft (calendrier, réunions, rappels…) : il suffit d’appuyer sur le bouton microphone pour lancer Cortana avec le mot de réveil “Hey Coratana”. La particularité de cet assistant est qu’il est lié au système Microsoft qui est un outil de bureautique et donc qui s’utilise principalement sur ordinateur avec Windows 10 mais peut aussi s’utiliser sur Windows Phone avec la version Windows 8.1 (et ultérieures).

Dragon NaturallySpeaking

Tout comme l’assistant Windows, Dragon NaturallySpeaking est un logiciel permettant d’utiliser son ordinateur par la voix et qui est notamment utilisé pour de la traduction. Il s’exécute sur d’autres logiciels de saisie comme Word ou Excel mais aussi sur des navigateurs web. Les utilisateurs s’en servent principalement pour de la dictée de mots. Dragon NaturalSpeaking permet la transcription des enregistrements audio, le traitement du texte dicté et sa correction éventuelle. Le logiciel Dragon est aussi reconnu pour sa précision car il permettrait de faire moins de fautes en moyenne qu’un utilisateur qui saisirait le texte sur un clavier.

Conclusion

Le système de reconnaissance vocale est aujourd’hui en pleine expansion. Chaque marque propose son propre assistant personnel fonctionnant avec son écosystème (Siri, Bixby) ou s’étendant à des produits d’autres marques (Alexa, Google Assistant). Des applications associées comme Apple Homekit ou Google Home offrent aux utilisateurs le choix de connecter entièrement sa maison grâce à la reconnaissance par la voix (et plus largement à l’intelligence artificielle). Finalement, les divers assistants vocaux ont des applications similaires (commande vocale, dicter un texte…) c’est à l’utilisateur de choisir l’écosystème numérique dans lequel il se sent le plus à l’aise.