Spraakherkenning: begrijpen en gebruiken

Kunstmatige intelligentie, en met name spraakherkenning, maakt een steeds groter onderdeel uit van ons dagelijks leven, of we het nu gebruiken op onze smartphones, tablets of slimme speakers, De stem van de gebruiker staat nu centraal in uw smart home, dat inmiddels door de belangrijkste digitale bedrijven wordt aangeboden. Maar de veelheid aan persoonlijke assistenten, slimme speakers en spraak gestuurde apparaten kan het al snel ingewikkeld maken om wegwijs te worden op de markt van de spraakherkenning. Wat weten we eigenlijk over spraakherkenning?  Wat zijn de toepassingen hiervan in het dagelijks leven en waarom is het inmiddels overal aanwezig? Netatmo maakt de balans op.

Een korte geschiedenis van spraakherkenning 

In 1961 werd een van 's werelds eerste spraakherkenningsinstrumenten door IBM gelanceerd: de IBM Shoebox. Pas in april 2011 lanceerde de Apple het inmiddels wereldwijd bekende Siri. Daarna volgden de lanceringen van verschillende spraakassistenten: eerst Google in juli 2012 met Google Now, Microsoft lanceerde het jaar daarop Cortana en in 2014 onthulde Amazon Alexa en zijn verbonden speaker; de Amazon Echo. 

Hoe werkt spraakherkenning? 

De definitie van spraakherkenning

Spraakherkenning kan worden gedefinieerd als de technologie waarmee een toestel de menselijke stem kan verstaan en analyseren en vervolgens alle gedicteerde woorden kan omzetten in bruikbare tekst.  Dit betekent dat de stem via de microfoon van het toestel wordt opgevangen en vervolgens wordt omgezet in geschreven tekst.Spraakherkenning kan worden beschouwd als een alternatief voor handmatig typen, waarvan wordt gezegd dat het sneller is en dus de mogelijkheid biedt tijd te besparen bij alledaagse taken. Spraakherkenning kan ook ruimer worden gedefinieerd, in dat geval spreken we van automatische spraakherkenning of ASR (automatic speech recognition). Automatische spraakherkenning omvat twee technologieën: dicteersoftware en spraakbesturing. Maar wat is het verschil tussen dicteersoftware en spraakbesturing? 

Dicteersoftware: het principe is eenvoudig, u dicteert een tekst mondeling aan het apparaat, die dit vervolgens via een processor transcribeert.

Spraakbesturing: deze term wordt gebruikt wanneer apparaten een taak uitvoeren na een spraakopdracht. 

In werkelijkheid is het verschil tussen de twee termen zeer subtiel. Samenvattend kan worden gezegd dat spraakbesturing echte instructies aan een apparaat geeft, terwijl dicteersoftware de gesproken tekst uitschrijft zonder hier verdere acties aan te verbinden. Om de spraakherkenningssoftware verder te verbeteren, heeft het National Institute of Standard and Technology in 1996 de Speaker Recognition Evaluation ontwikkeld. Veel onderzoekers gebruiken dit instrument om de vooruitgang van de spraakherkenning in de loop der jaren te evalueren. In deze context wordt ook vaak gesproken over het foutpercentage, dat een gemiddelde is om de prestaties van spraakherkenningssoftware te evalueren. 

De verschillende componenten van een spraakherkenningssysteem

Het activatiewoord: dit is de toegangssleutel, de eerste interactie tussen mens en machine in het spraakherkenningsproces. Dit is een woord dat de spraakherkenning van het apparaat in werking zal stellen. De bekendste hiervan zijn waarschijnlijk "Ok Google" of "Zeg Siri". Activatiewoorden zijn vaak kort en bondig, vooral omdat de gebruiker ze gemakkelijk en snel moet kunnen uitspreken. Ook is het belangrijk dat het makkelijk is uit te spreken omdat er in elke taal verschillende accenten en een veelheid van intonaties mogelijk zijn.

Speech To Text: dit is een systeem dat de woorden die de gebruiker dicteert opbreekt. Het deelt woorden op in kleine groepen (samples genoemd) om ze te associëren met fonemen. Eenvoudiger gezegd maakt dit het transcriberen van gesproken tekst mogelijk. Dit proces, gekoppeld aan algoritmen, stelt de machine in staat te herkennen wat er door de gebruiker is gezegd. Speech To Text kan worden verbeterd dankzij kunstmatige-intelligentietechnieken zoals machine learning of deep-learning, waarbij de machine de juiste antwoorden ‘leert’ te herkennen met behulp van kunstmatige neurale netwerken. 

NLP (Natural Language Processing): deze technologie wordt automatische verwerking van natuurlijke taal genoemd. Het is een tool die menselijke taal verwerkt met behulp van computergestuurde hulpmiddelen. Dit proces is onderverdeeld in 2 stappen: Natural Language Understanding (het begrijpen van natuurlijk taalgebruik) en Natural Language Generation (het genereren van natuurlijk taalgebruik).  Het NLP-proces komt na het Text To Speech, aangezien de tekst via dit instrument door de software wordt geïnterpreteerd.

Text To Speech: deze technologie, ook bekend als spraaksynthese, maakt de mogelijk computertekst om te zetten in audiotekst. Zo kan bijvoorbeeld een computerstem een webpagina voorlezen aan personen met een visuele beperking. Na verwerking van de tekst bepaalt de software het ritme en de intonatie die aan de tekst moet worden gegeven. Dit is de laatste stap in het spraakherkenningsproces, omdat met behulp van dit instrument de gesynthetiseerde stem wordt gecreëerd die reageert op het verzoek van de gebruiker. 

Spraakassistenten op de markt 

De laatste jaren hebben veel van de grote spelers in de ‘digitale revolutie’ hun eigen persoonlijke assistenten geïntroduceerd op de markt van de spraakherkenning. Hoewel zij in grote lijnen dezelfde spraak- en teksttranscriptietechnieken gebruiken, heeft elke assistent zijn eigen bijzonderheden afhankelijk van de doelstellingen van zijn fabrikant. Het integreren van spraakherkenning in hun ecosysteem is belangrijk voor merken omdat gebruikersgegevens een grotere nauwkeurigheid voor de stem-assistent mogelijk maken.Het is belangrijk om te benadrukken dat voor de bediening van alle slimme objecten in huis een audiosysteem (smart speaker) nodig is die door verschillende merken wordt verkocht. 

Google Assistant 

De in 2016 gelanceerde Google Assistant is uitgegroeid tot een van 's werelds toonaangevende spraakassistenten. Voor zijn verschijning had het merk zich echter al op de markt van de spraakherkenning gepositioneerd met zijn Google Now assistent. Google Assistant begon als een uitbreiding van Google Now, maar is inmiddels een op zichzelf staand product.  De assistent kan nu worden gebruikt met de Google Allo-applicatie om berichten rechtstreeks voor de gebruiker te beantwoorden. Ook kunnen gebruikers hun Google Assistant spraakopdrachten geven en een hele reeks taken laten uitvoeren, van realtime vertalingen tot het afspelen van muziek en routeplanning. Om deze assistent te activeren hoeft men enkel ‘Hey Google’ of ‘Ok Google’ te zeggen. De spraakassistent van Google is ontworpen om te werken met alle intelligente producten uit de Nest-reeks (Nest Hub, Chromecast, enz.). Maar dat is nog niet alles, het Amerikaanse merk heeft de reikwijdte van zijn spraakassistent kunnen uitbreiden dankzij compatibiliteit met vele andere merken, waaronder bijvoorbeeld Netatmo. .De slimme speaker van het merk is de Google Nest. Er is ook een versie met een scherm, de Nest Hub genaamd. 

Netatmo producten die compatibel zijn met Google Assistant:

Siri 

De persoonlijke assistent Siri werd in 2011 door Apple gelanceerd. Net als andere assistenten verwerkt het spraakopdrachten of zoekopdrachten van de gebruiker. Het bijzondere van Siri is dat het alleen compatibel is met Apple-producten (Iphone, Ipad, etc.). 

De smart speaker van Apple is de Homepod (ook verkrijgbaar als Mini).

De producten van Netatmo die compatibel zijn met de Apple Homekit-applicatie (Apple-applicatie waarmee slimme producten met Siri-ondersteuning zijn geïntegreerd):

Alexa

Amazon lanceerde Alexa in november 2014 samen met de Amazon Echo speaker.  In tegenstelling tot Siri of Google Assistant wordt hij geactiveerd met het uitspreken van zijn naam ‘Alexa’, wat iets intuïtiever aanvoelt dan ‘OK’ of ‘Hey’. De kracht van deze spraakassistent ligt in zijn zeer goede kennis van de winkelgewoonten van klanten op Amazon. Wanneer u spraakopdrachten geeft voor een aankoop op Amazon, kan Alexa een zeer relevante lijst met artikelen geven. Het is ook een van de assistenten die de meeste compatibiliteit met producten van andere merken mogelijk maakt. 

Netatmo producten die compatibel zijn met Alexa: 

Bixby Voice

Bixby Voice, de door Samsung ontwikkelde assistent, is minder bekend dan Siri of Alexa is Bixby Voice. Bixby Voice biedt veel van dezelfde functies als de andere assistenten, maar is alleen beschikbaar op telefoons en tabletten van Samsung. Om hem te activeren dient u de woorden "Hi Bixby" uit te spreken. Samsung geeft aan dat Bixby Voice spraakopdrachten op een subtiele manier begrijpt, dat wil zeggen dat het in staat is onderscheid te maken tussen verzoeken die zeer sterk op elkaar lijken.

De smart speaker van Samsung heet ‘Galaxy Home’ (ook beschikbaar in een Mini uitvoering).

Cortana

In 2013 kondigde Microsoft de release van zijn Cortana-software aan. Deze software wordt door Microsoft omschreven als een "productiviteitsassistent" die met Windows samenwerkt. Met de Cortana-software kunt u taken van Microsoft beter beheren (agenda, vergaderingen, herinneringen...) het enige wat u hoeft te doen om Cortona te starten is op de microfoonknop in drukken en ‘Hey Coratana’ te zeggen. 

Deze assistent is gekoppeld aan het Microsoft-systeem, en kan dus worden gebruikt op een computer met Windows 10, maar ook op Windows Phone met Windows 8.1 (en later). 

Dragon NaturallySpeaking 

Net als de Windows Assistant is Dragon NaturalSpeaking software waarmee u uw computer met uw stem kunt bedienen en die veel wordt gebruikt voor vertalingen. Hij werkt probleemloos samen met verschillende programma’s zoals Word of Excel, maar ook met webbrowsers. Deze software wordt vooral gebruikt voor het dicteren van teksten. Met Dragon NaturalSpeaking kunnen audio-opnamen worden getranscribeerd, gedicteerde tekst worden verwerkt en eventueel gecorrigeerd. De Dragon-software staat ook bekend om zijn nauwkeurigheid, aangezien hij gemiddeld minder fouten maakt dan iemand die een tekst op een toetsenbord uittypt.

Conclusie

De wereld van spraakherkenningssystemen is volop in ontwikkeling. Elk merk biedt zijn eigen persoonlijke assistent aan, sommigen werken alleen met de producten van het betreffende merk (Siri, Bixby) terwijl anderen ook compatibel zijn met producten van andere merken (Alexa, Google Assistant). Verwante producten zoals de Apple Homekit of Google Home bieden gebruikers de keuze om hun huis volledig te digitaliseren via spraakherkenning (en in ruimere zin met artificiële intelligentie).  Tenslotte hebben de verschillende spraakassistenten vergelijkbare toepassingen (spraakbesturing, dicteren van een tekst, etc.) het is aan de gebruiker om het digitale ecosysteem te kiezen waarin hij zich het best thuis voelen.