El reconocimiento de voz: cómo funciona y cómo utilizarlo

La inteligencia artificial está teniendo un rol cada vez mayor en nuestra vida diaria. Un ejemplo de ello es el reconocimiento de voz, el cual utilizamos a través de nuestros móviles inteligentes, tabletas o altavoces conectados. La voz de los usuarios es de gran importancia y está en el centro del mundo conectado que proponen los operadores digitales. Sin embargo, con la cantidad de asistentes personales, altavoces conectados y objetos activados por voz que existen, entender el mercado del reconocimiento de voz puede ser complicado. ¿Qué sabemos realmente del reconocimiento de voz? ¿Cuál es su aplicación en la vida cotidiana y por qué está tan omnipresente hoy en día? Netatmo hace un balance de la situación.

Breve historia del reconocimiento de voz

En 1961, IBM lanzó una de las primeras herramientas de reconocimiento de voz del mundo: el IBM Shoebox. El gigante tecnológico Apple, por su parte, lanzó Siri en abril de 2011, su asitente de voz mundialmente conocido. Posteriormente, numerosas empresas lanzaron sus propios asistentes de voz: primero Google Now de Google, en julio del 2012; luego Cortana, de Microsoft, al año siguiente y en 2014 Amazon, que presentó Alexa y su altavoz conectado, Amazon Echo.

¿Cómo funciona el reconocimiento de voz?

Definiendo el reconocimiento de voz

El reconocimiento de voz es una tecnología que permite a un dispositivo captar y analizar la voz humana, para luego transcribir cada palabra dictada en un texto determinado. Concretamente, la voz se capta a través del micrófono del dispositivo en forma de frecuencias sonoras y luego se transcribe en forma de texto. El reconocimiento de voz puede considerarse una alternativa a la escritura a mano o con teclado y generalmente cuenta con muy buena acogida debido a que nos permite ahorrar tiempo en actividades cotidianas. El reconocimiento de voz también puede definirse como una noción más amplia del reconocimiento automático del habla o RAH. Este último comprende dos tecnologías: el dictado por voz y el comando de voz. ¿Cuál es entonces la diferencia entre estas?

Dictado por voz: el principio es sencillo. Lo único que hay que hacer es dictar oralmente un texto al dispositivo y este se encargará de transcribirlo a través de un procesador.

El comando de voz: este término se utiliza cuando se dan órdenes de forma oral.

En realidad, la diferencia entre ambos términos es muy sutil. Podemos decir que el comando de voz da verdaderas instrucciones a la máquina, mientras que el dictado por voz se limita a dar cierta información de forma oral, sin que se trate necesariamente de una orden. Con el objetivo de mejorar los programas de reconocimiento de voz, el Instituto Nacional de Estándares y Tecnología (NIST, por sus siglas en inglés), desarrolló el Speaker Recognition Evaluation en 1966. De este modo, muchos investigadores pueden utilizar esta herramienta para evaluar el progreso y evolución del reconocimiento de voz a lo largo de los años.También es habitual oír hablar de la tasa de error de palabras, que no es más que una simple medida para evaluar el rendimiento del programa de reconocimiento de voz.

Los diferentes componentes del sistema de reconocimiento de voz

La palabra de activación o wake word: es la llave de entrada, la primera interacción entre el ser humano y la máquina en el proceso del reconocimiento de voz. Es una palabra que activa el reconocimiento de voz en el dispositivo. Las palabras de activación más conocidas son, probablemente "Ok Google" y "hola Siri". Estas suelen ser cortas y concisas, sobre todo porque el usuario debe ser capaz de pronunciarlas de manera fácil y rápida. La sencillez de la pronunciación es aún más importante porque en cada idioma puede haber diferentes acentos y diversos tonos de voz, entre otros aspectos.

El Speech To Text: es una herramienta que descompone las palabras dictadas por el usuario. Esta separa las palabras en pequeños grupos (llamados muestras) para asociarlas posteriormente a los fonemas. En otras palabras, la herramienta permite transcribir la voz o el audio a texto escrito. Este proceso, con la ayuda de algunos algoritmos, le permite a la máquina reconocer lo que ha sido dicho por el usuario. El Speech To Text puede perfeccionarse gracias a técnicas de inteligencia artificial como el machine learning o el deep-learning, que consiste en "enseñarle" a la máquina las respuestas correctas mediante redes neuronales artificiales.

El Natural Language Processing o NLP: en español, esta tecnología es llamada Procesamiento del Lenguaje Natural. Es una herramienta que permite procesar el lenguaje humano mediante herramientas informáticas. Consta de 2 procesos: la Comprensión del Lenguaje Natural y la Generación de Lenguaje Natural. El proceso de PLN viene después del Speech to text, dado que es a través de esta que el texto es interpretado por la máquina.

El Text To Speech: la conversión de texto en voz, también llamada síntesis del habla, es una tecnología que permite transformar un texto en audio. Por ejemplo, permite leer el contenido de una página web a una persona con discapacidad visual (una voz informatizada se ocupa de realizar esta tarea). Después de procesar el texto, el programa determina el ritmo o la entonación que debe utilizarse. Esta tecnología se utiliza al final del proceso de reconocimiento de voz, pues es gracias a ella que se crea la voz sintetizada capaz de responder a las preguntas de los usuarios.

Los asistentes de voz presentes en el mercado

Getty Images 1140252133 768x503.jpg

En los últimos años, muchos de los principales actores de la "revolución digital" han introducido sus propios asistentes personales al mercado del reconocimiento de voz. Aunque utilizan más o menos las mismas técnicas de transcripción de voz y texto, cada asistente tiene sus propias particularidades según los objetivos de su fabricante. Integrar el reconocimiento de voz en un determinado ecosistema es importante para las empresas porque los datos de los usuarios les permiten aumentar el nivel de precisión de su asistente de voz. Hay que recordar también que para hacer funcionar todos los objetos conectados en casa, resulta necesario utilizar un sistema de audio o altavoces conectados. Estos son vendidos por las diferentes marcas.

El Asistente de Google

Lanzado en 2016, el Asistente de Google se ha convertido en uno de los principales asistentes de voz del mundo. Sin embargo, antes de su aparición, la marca ya se había posicionado en el mercado del reconocimiento de voz con Google Now. El Asistente de Google fue, en un principio, tan solo una extensión del Google Now. El asistente puede ser utilizado con aplicación Google Allo para responder directamente a los mensajes en lugar del usuario. El Asistente de Google le permite a los usuarios efectuar comandos de voz y realizar una serie de tareas que van desde la traducción en tiempo real, hasta el control de la música o las recomendaciones sobre la mejor ruta para llegar a un sitio determinado. Las palabras de activación de este asistente son "Hey Google" u "Ok Google". El Asistente de voz de Google está diseñado para funcionar con todos los productos conectados de la gama Nest (Nest Hub, Chromecast, etc.). Pero eso no es todo, la marca americana ha sido capaz de ampliar el alcance de su asistente de voz a través de la compatibilidad con muchas otras marcas como Netatmo, por ejemplo. El altavoz conectado de la marca es el Google Nest. Existe también un modelo con pantalla: el Nest Hub.

Productos Netatmo compatibles con el Asistente de Google:

Siri

Este asistente personal fue lanzado por Apple en el 2011. Al igual que los otros asistentes, Siri procesa los comandos de voz emitidos por los usuarios. Una de las particularidades de Siri es que solo es compatible con el ecosistema digital de la marca Apple (Iphone, Ipad, etc.).

El altavoz conectado de Apple es el Homepod (una versión Mini se encuentra igualmente disponible).

Productos Netatmo compatibles con la aplicación Apple Homekit (aplicación de Apple con la que se integran los productos inteligentes que funcionan con Siri):

Alexa

Fuen en noviembre del 2014 que Amazon lanzó Alexa y Amazon Echo, su altavoz conectado. A diferencia de Siri o del Asistente de Google, la palabra de activación de este dispositivo es simplemente "Alexa", su nombre. Lo anterior puede llegar a ser más intuitivo que un "Ok" on un "Hey". El punto fuerte de este asistente de voz reside en su excelente capacidad para conocer los hábitos de consumo de los clientes en Amazon. Al utilizar comandos de voz al momento de realizar una compra en Amazon, Alexa es capaz de proponer una lista de artículos pertinentes que se adaptan a lo que el cliente está buscando. Nos encontramos también frente a uno de los dispositivos que cuenta con el mayor grado de compatibilidad con otras marcas.

Productos Netatmo compatibles con Alexa

Bixby Voice

Es un asistente personal desarrollado por Samsung, aunque es menos conocido que Siri o Alexa. Bixby Voice ofrece, en términos generales, las mismas funciones que otros asistentes de voz, pero solo está disponible en los dispositivos (móviles y tabletas) de la marca Samsung. La palabra de activación de este dispositivo es "Hi Bixby". Samsung destaca que Bixby Voice entiende los comandos de voz con precisión, siendo capaz de diferenciar entre peticiones muy similares.

El altavoz conectado de Samsung es el Galaxy Home (una versión Mini se encuentra igualmente disponible).

Cortana

En el 2013 Microsoft anunció el lanzamiento de Cortana. La compañía define esta herramienta como un "asistente de productividad personal" que funciona con Windows. El software Cortana permite gestionar mejor las tareas en el universo Microsoft (calendario, reuniones, recordatorios, etc.). Lo único que debemos hacer es pulsar el botón del micrófono para lanzar Cortana con la palabra de activación "Hey Cortana".

La particularidad de este asistente es que está vinculado al ecosistema de Microsoft, que es una herramienta ofimática y, por tanto, puede ser utilizado principalmente en ordenadores con Windows 10 y en dispositivos móviles de la gama Windows Phone (con versiones Windows 8.1 o posteriores).

Dragon NaturallySpeaking

Al igual que el Asistente de Windows, Dragon NaturalSpeaking es un software que permite utilizar el ordenador mediante comandos de voz y se utiliza principalmente en la traducción. Puede ser ejecutado en programas como Word o Excel, al igual que en navegadores web. Los usuarios lo utilizan principalmente por el dictado de palabras. Dragon NaturalSpeaking permite la transcripción de grabaciones de audio, el procesamiento del texto dictado y su eventual corrección. Este programa es también conocido por su alto nivel de precisión, ya que parece cometer menos errores en promedio, que un usuario que escribe en un teclado.

Conclusión

El sistema de reconocimiento de voz se encuentra en pleno auge. Cada marca cuenta con su propio asistente personal que funciona en determinado ecosistema (Siri, Bixby) o en los ecosistemas de otras marcas y productos (Alexa, Asistente de Google, etc.). Las aplicaciones asociadas, como Apple HomeKit o Google Home, les ofrecen a los usuarios la posibilidad de conectar totalmente su hogar a través del reconocimiento de voz y, en general, de la inteligencia artificial. Por último hay que decir que los diferentes asistentes de voz cuentan con aplicaciones similares (comando de voz, dictado de texto, etc.) y que es el usuario quien debe elegir el ecosistema digital con el que se siente más a gusto.