Il riconoscimento vocale: capirlo e usarlo correttamente

Sia che la si usi sugli smartphone, tablet o casse connesse, l'intelligenza artificiale, e in particolare il riconoscimento vocale, sta diventando sempre più parte integrante della nostra vita quotidiana. La voce degli utenti assume tutta la sua importanza e si colloca al centro del mondo connesso proposto dagli operatori del digitale. Tuttavia, con la moltitudine di assistenti personali, di altoparlanti connessi e di oggetti ad attivazione vocale, riuscire a capirne qualcosa nel mercato del riconoscimento vocale può risultare complicato. Quindi, cosa sappiamo veramente del riconoscimento vocale? Qual è la sua applicazione nella vita quotidiana e perché è così onnipresente oggi? Netatmo fa il punto della situazione.

Breve storia del riconoscimento vocale

Nel 1961, uno dei primi strumenti di riconoscimento vocale al mondo fu lanciato da IBM: l'IBM Shoebox. È solo nell’aprile 2011 che l'ormai gigante Apple lancia Siri, conosciuto oggi in tutto il mondo. Dopo di che, numerosi assistenti vocali sono stati lanciati da diverse aziende: prima Google Now di Google nel luglio 2012, poi Cortana di Microsoft l'anno successivo e nel 2014 Amazon ha presentato Alexa e il suo altoparlante connesso Amazon Echo.

Come funziona il riconoscimento vocale?

Definire il riconoscimento vocale

Il riconoscimento vocale consiste in una tecnologia che permette a un dispositivo di captare ed analizzare la voce umana per poi trascrivere ciascuna delle parole dettate in un testo fruibile per diversi scopi. In particolare, la voce viene acquisita tramite il microfono del dispositivo sotto forma di frequenze sonore per poi essere trascritta sotto forma di testo. Il riconoscimento vocale può essere visto come un'alternativa alla digitazione su tastiera / manuale, ed è spesso apprezzato perché più rapido nelle operazioni quotidiane. Il riconoscimento vocale viene definito anche come un concetto più ampio di riconoscimento automatico della parola o ASR. Il riconoscimento vocale automatico è composto da due tecnologie: il dettato vocale e il comando vocale. Ma qual è la differenza tra il dettato e il comando vocale?

Dettato vocale: il principio è semplice, bisogna dettare un testo oralmente al dispositivo, che lo trascrive tramite un processore.

Comando vocale: questo termine si usa quando si tratta di dare ordini oralmente.

In realtà la differenza tra i due termini è molto lieve. In parole povere, si può dire che il comando vocale dà vere e proprie istruzioni alla macchina, mentre la dettatura vocale può semplicemente dare una certa quantità di informazioni a voce senza che si tratti necessariamente di un comando. Con lo scopo di migliorare ulteriormente i software di riconoscimento vocale, il National Institute of Standard and Technology, negli Stati Uniti, ha sviluppato nel 1996 la Speaker Recognition Evaluation. In questo modo, molti ricercatori possono usare questo strumento per valutare i progressi del riconoscimento vocale nel corso degli anni. È anche comune sentir parlare del tasso di errore di parola, il che non è altro che una semplice media che permette di valutare le prestazioni del software di riconoscimento vocale.

I diversi componenti del sistema di riconoscimento vocale

La parola di attivazione (o wake word): si tratta della chiave di ingresso, la prima interazione tra l'uomo e la macchina nel processo di riconoscimento vocale. È una parola che innesca il riconoscimento vocale da parte del dispositivo. Probabilmente le parole di attivazione più conosciute sono "Ok Google" o "Ehi Siri". Le wake words sono spesso brevi e concise, soprattutto perché l'utente deve essere in grado di pronunciarle facilmente e rapidamente. La facilità di pronuncia è ancora più importante perché in ogni lingua ci possono essere diversi accenti e una moltitudine di tonalità di voce, etc.

Lo Speech To Text: è un sistema che scompone le parole che l'utente detta. È in grado di separare le parole in piccoli gruppi (chiamati campioni) al fine di associarle a dei fonemi. In parole povere, è ciò che permette la trascrizione dell'audio o della voce in testo scritto. Questo processo, combinato con alcuni algoritmi, permette alla macchina di riconoscere ciò che è stato detto dall'utente. Lo Speech to text può essere migliorato grazie a tecnologie di intelligenza artificiale come il machine learning o deep-learning, che consiste nell'insegnare alla macchina quali sono le risposte corrette grazie all’utilizzo di reti di neuroni artificiali.

Il NLP (Natural Language Processing): in italiano si definisce come elaborazione del linguaggio naturale. È uno strumento che permette di elaborare il linguaggio umano utilizzando strumenti informatici. Si compone di due processi: il Natural Language Understanding (comprensione del linguaggio naturale e il Natural Language Generation (produzione del linguaggio naturale). Il processo NLP avviene in seguito allo Speech to text, poiché è attraverso questo strumento che il testo viene interpretato dalla macchina.

Il Text To Speech: questa tecnologia, conosciuta anche come sintesi vocale, permette di trasformare un testo informatico in testo sonoro. Per esempio, permette a una voce computerizzata di leggere una pagina web ad una persona ipovedente. Dopo l’elaborazione del testo, il software stabilisce il ritmo o l'intonazione da attribuire al testo dato. Questa tecnologia viene utilizzata al termine del processo di riconoscimento vocale perché è attraverso questo strumento che viene creata la voce sintetizzata capace di rispondere alle domande dell'utente.

Gli assistenti vocali presenti sul mercato

Getty Images 1140252133 768x503.jpg Negli ultimi anni, molti dei principali protagonisti della "rivoluzione digitale" hanno introdotto i loro assistenti personali nel mercato del riconoscimento vocale. Sebbene utilizzino più o meno le stesse tecniche di trascrizione vocale e testuale, ogni assistente ha le sue particolarità secondo quelli che sono gli obiettivi del suo produttore. L'integrazione del riconoscimento vocale in un ecosistema è importante per le aziende perché i dati degli utenti permettono loro di aumentare il livello di precisione per il proprio assistente vocale. Bisogna anche ricordare che per far funzionare tutti gli oggetti connessi in casa è necessario utilizzare un sistema audio (altoparlanti connessi ) anch’esso venduto dalle varie marche.

Assistente Google

Lanciato nel 2016, l'Assistente Google è diventato uno dei principali assistenti vocali al mondo. Tuttavia, prima della sua apparizione, il marchio si era già posizionato sul mercato del riconoscimento vocale con il suo assistente Google Now. In particolare, Google Assistant all’inizio era un'estensione di Google Now ma ora viene usato a pieno titolo. L'assistente può oggi essere utilizzato con l'applicazione Google Allo per rispondere direttamente ai messaggi al posto dell'utente. Google Assistant permette agli utenti di effettuare comandi vocali ed eseguire una varietà di compiti che vanno dalla traduzione in tempo reale al controllo della musica fino alle raccomandazioni sul miglior percorso da seguire per recarsi da qualche parte. Le parole di attivazione di questo assistente sono "Ehi Google" oppure "Ok Google". L'assistente vocale di Google è progettato per funzionare con tutti i prodotti connessi della gamma Nest (Nest Hub, Chromecast, ecc.). Ma non è tutto, il marchio americano è stato in grado di estendere il campo d’azione del suo assistente vocale grazie alla compatibilità con molte altre marche come Netatmo, per esempio. L'altoparlante connesso del marchio è il Google Nest. Esiste anche una versione dotata di schermo, il Nest Hub.

Prodotti Netatmo compatibili con Google Assistant:

Siri

L'assistente personale Siri è stato lanciato nel 2011 da Apple. Come altri assistenti, elabora i comandi vocali o le ricerche effettuate dall'utente. La particolarità di Siri sta nella sua compatibilità solo con l'ecosistema Apple (iPhone, iPad, etc.). L'altoparlante collegato di Apple è l'HomePod (disponibile anche in versione Mini).

Prodotti Netatmo compatibili con l'applicazione Apple HomeKit (applicazione Apple con cui sono integrati i prodotti intelligenti abilitati a Siri):

Alexa

Amazon ha lanciato Alexa nel novembre 2014 e il suo altoparlante Amazon Echo contemporaneamente. A differenza di Siri o di Google Assistant la parola di attivazione è direttamente il suo nome, "Alexa", che appare come leggermente più intuitivo di un "OK" o "Ehi". La forza di questo assistente vocale sta nell’ottima capacità di conoscere le abitudini di acquisto dei clienti su Amazon. Nel momento in cui si effettuano dei comandi vocali con lo scopo di acquistare qualcosa su Amazon, Alexa può proporre un elenco di articoli che si adatta molto bene al cliente. È anche uno degli assistenti che permette la più ampia compatibilità con prodotti di altre marche.

Prodotti Netatmo compatibili con Alexa:

Bixby Voice

Meno conosciuto di Siri o Alexa, Bixby Voice è l'assistente personale creato da Samsung. Bixby Voice offre in linea di massima le stesse caratteristiche degli altri assistenti vocali, ma è disponibile solo su telefoni e tablet Samsung. Per attivarlo bisogna dire "Hi Bixby". Samsung sottolinea che Bixby Voice capisce i comandi vocali in modo accurato, cioè è in grado di fare la differenza tra richieste molto simili. L'altoparlante connesso di Samsung si chiama Galaxy Home (anche in versione Mini).

Cortana

Nel 2013 Microsoft ha annunciato il rilascio del suo programma Cortana. È descritto da Microsoft come un "assistente di produttività" che funziona con Windows. Il software Cortana permette di gestire meglio i compiti su Microsoft (calendario, riunioni, promemoria...): l'unica cosa da fare è premere il pulsante del microfono per lanciare Cortana con la frase di attivazione "Hey Cortana". La particolarità di questo assistente è che è legato al sistema Microsoft, che è uno strumento da ufficio e quindi può essere utilizzato principalmente su computer con Windows 10, ma può essere utilizzato anche su Windows Phone con la versione Windows 8.1 (e quelle successive).

Dragon NaturallySpeaking

Proprio come l'Assistente di Windows, Dragon NaturalSpeaking è un software che permette di utilizzare il computer attraverso comandi vocali ed è utilizzato per la traduzione. Funziona su altri programmi di input come Word o Excel, ma anche su browser web. Gli utenti lo usano principalmente per la dettatura di parole. Dragon NaturalSpeaking permette la trascrizione di registrazioni audio, l'elaborazione del testo dettato e la sua eventuale correzione. Il software Dragon è anche noto per la sua precisione, poiché pare faccia in media meno errori di un utente che digita su una tastiera.

Conclusioni

Il sistema di riconoscimento vocale è in questo periodo in piena espansione. Ogni marchio offre il proprio assistente personale che lavora con il proprio ecosistema (Siri, Bixby) o che si estende a prodotti di altre marche (Alexa, Google Assistant). Applicazioni associate come Apple HomeKit o Google Home offrono agli utenti la possibilità di collegare interamente la propria casa attraverso il riconoscimento vocale (e più in generale attraverso l'intelligenza artificiale). Infine, i vari assistenti vocali presentano anche applicazioni simili (comando vocale, dettato di un testo...) sta all'utente scegliere l'ecosistema digitale con cui si sente più a suo agio.