Spracherkennung: richtig verstehen und nutzen

Ob auf Smartphones, Tablets oder Lautsprechern - künstliche Intelligenz und insbesondere Spracherkennung werden immer mehr zu einem festen Bestandteil unseres Alltags. Die Stimme der Nutzer steht nun im Mittelpunkt der vernetzten Welt, die von digitalen Tech-Firmen angeboten wird. Doch bei der Vielzahl an Sprachassistenten, vernetzten Lautsprechern und sprachgesteuerten Objekten kann es schnell unübersichtlich werden, sich auf dem Markt für Spracherkennung zurechtzufinden. Was wissen wir also wirklich über Spracherkennung?  Wie wird sie im Alltag angewendet und warum ist sie heute so allgegenwärtig? Netatmo zieht Bilanz. 

Kurze Geschichte der Spracherkennung 

1961 brachte IBM eines der ersten Spracherkennungstools der Welt auf den Markt: die IBM Shoebox. Doch erst im April 2011 brachte der Gigant Apple den heute weltberühmten Sprachassistenten Siri auf den Markt. Google startete im Juli 2012 mit Google Now, Microsoft im Jahr darauf mit Cortana und Amazon im Jahr 2014 mit Alexa und seinem Lautsprecher Amazon Echo. 

Wie funktioniert die Sprachkennung? 

Spracherkennung festlegen

Spracherkennung ist eine Technologie, die es einem Gerät ermöglicht, die menschliche Stimme zu verstehen und zu analysieren, um dann jedes diktierte Wort in einen verwertbaren Text umzuschreiben.  Genauer gesagt wird die Stimme über das Mikrofon des Geräts in Tonfrequenzen erfasst und anschließend in geschriebenen Text transkribiert.

Die Spracherkennung kann als Alternative zur Tastatur-/Handschrifteingabe angesehen werden. Häufig wird sie aufgrund ihrer höheren Eingabegeschwindigkeit benutzt, die bei alltäglichen Aufgaben Zeit spart.

Spracherkennung kann auch als der umfassendere Begriff der automatischen Spracherkennung oder APE definiert werden. Die automatische Spracherkennung umfasst zwei Technologien: das Diktieren der Sprache und die Sprachsteuerung. Aber was ist der Unterschied zwischen dem Diktieren der Sprache und Sprachsteuerung? 

Diktieren der Sprache: Das Prinzip ist einfach, man diktiert dem Gerät einen Text, der dann über einen Prozessor transkribiert wird.

Sprachsteuerung: Man verwendet diesen Begriff, wenn es darum geht, Befehle mündlich zu erteilen 

In Wirklichkeit ist die Nuance zwischen den beiden Begriffen sehr gering. Zusammenfassend kann man sagen, dass die Sprachsteuerung der Maschine echte Anweisungen gibt, während das Diktieren der Sprache lediglich die Möglichkeit bietet, eine Reihe von Informationen durch die Stimme zu geben, ohne dass es sich dabei um Befehle handelt. 

Um die Spracherkennungssoftware immer weiter zu verbessern, entwickelte das National Institute of Standard and Technology bereits 1996 die Speaker Recognition Evaluation. So nutzen viele Forscher dieses Instrument, um im Laufe der Jahre den Fortschritt der Spracherkennung zu bewerten.

Häufig hört man auch von der Wortfehlerrate, die nichts anderes als ein Durchschnittswert ist, um die Leistung einer Spracherkennungssoftware zu bewerten. 

Die verschiedenen Komponenten des Spracherkennungssystems

Das wake word oder Aktivierungswort: Es ist der Schlüssel zum Einstieg, die erste Interaktion zwischen Mensch und Maschine im Spracherkennungsprozess. Das ist ein Wort, das die Spracherkennung des Geräts auslöst. Die bekanntesten Aktivierungswörter sind wahrscheinlich "Ok Google" oder "Hey Siri". Wake words sind insbesondere deshalb oft kurz und prägnant, weil der Nutzer sie leicht und schnell aussprechen können muss. Eine leichte Aussprache ist umso wichtiger, wenn man bedenkt, dass es in jeder Sprache mehrere Akzente geben kann und es eine Vielzahl von Stimmlagen usw. gibt.

Speech-to-Text: Hierbei handelt es sich um ein System, das die Wörter, die der Nutzer diktiert, in ihre Bestandteile zerlegt. Es trennt Wörter in kleine Gruppen (sogenannte Samples), um sie Phonemen zuzuordnen. Einfacher ausgedrückt ermöglicht es die Transkription von Audio oder Sprache in geschriebenen Text. Dieser Prozess, der mit Algorithmen gekoppelt ist, ermöglicht es der Maschine zu erkennen, was der Nutzer gesagt hat. Speech-to-Text kann durch Techniken der künstlichen Intelligenz wie Machine-Learning oder auch Deep-Learning verbessert werden, bei dem die Maschine mithilfe künstlicher neuronaler Netze trainiert und dazu gebracht wird, die richtigen Antworten zu „lernen“. 

NLP (Natural Language Processing): Auf Deutsch wird diese Technologie als linguistische Datenverarbeitung (LDV) bezeichnet. Es ist ein Werkzeug, das zur Verarbeitung der menschlichen Sprache mithilfe von Computertools dient. Sie wird in 2 Prozesse unterteilt: Natural Language Understanding (Verstehen natürlicher Sprache) und Natural Language Generation (Textgenerierung).  Der LDV-Prozess kommt nach Speech-to-Text, da der Text über dieses Tool von der Maschine interpretiert wird.

Text-To-Speech: Diese Technologie, die auch als Sprachsynthese bezeichnet wird, ermöglicht es, einen Computertext in einen Hörtext umzuwandeln. Zum Beispiel kann es einem Menschen mit Sehbehinderung mithilfe einer computergestützten Stimme eine Webseite vorlesen. Nach der Bearbeitung des Textes legt die Software den Rhythmus oder die Intonation fest, die dem Text gegeben werden soll. Sie wird am Ende des Spracherkennungsprozesses verwendet, da mit ihrer Hilfe die synthetische Stimme erstellt wird, um die Anfrage des Nutzers beantworten zu können. 

Sprachassistenten auf dem Markt

Getty Images 1140252133 768x503.jpgSeit einigen Jahren führen viele der großen Tech-Companies der "digitalen Revolution" ihre eigenen persönlichen Assistenten in den Markt für Spracherkennung ein. Obwohl sie im Großen und Ganzen die gleichen Techniken zur Transkription von Sprache und Text verwenden, hat jeder Assistent seine eigenen Besonderheiten, die von den Zielen des Herstellers abhängen. Die Integration der Spracherkennung in ein Ökosystem ist für Marken wichtig, da die gewonnenen Nutzerdaten eine höhere Genauigkeit für den Sprachassistenten ermöglichen.

Es ist auch zu beachten, dass man, um alle vernetzten Objekte in seinem Haus zum Laufen zu bringen, auf ein Audiosystem (vernetzte Lautsprecher) zurückgreifen muss, welches oft von verschiedenen Marken verkauft wird. 

Google Assistant 

Der 2016 eingeführte Google Assistant hat sich zu einem der weltweit führenden Sprachassistenten entwickelt. Dennoch hatte sich die Marke bereits vor ihrem Erscheinen mit ihrem Assistenten Google Now auf dem Markt der Spracherkennung positioniert. Genauer gesagt war der Google Assistant zunächst eine Erweiterung von Google Now, bevor er nun vollwertig genutzt wird.  Der Assistent kann heute mit dem Dienst Google Allo verwendet werden, um direkt anstelle des Benutzers auf Nachrichten zu antworten. 

Heute ermöglicht Google Assistant den Nutzern, Sprachbefehle auszuführen und verschiedene Aufgaben zu erledigen, die von Echtzeitübersetzungen über Musiksteuerung bis hin zu Empfehlungen für die beste Route reichen. Die Aktivierungsworte dieses Assistenten lauten „Hey Google“ oder „Ok Google“. Der Sprachassistent von Google ist so konzipiert, dass er mit allen vernetzten Produkten der Nest-Produktreihe (Nest Hub, Chromecast usw.) funktioniert. Aber das ist noch nicht alles: Die amerikanische Marke hat den Aktionsradius ihres Sprachassistenten durch die Kompatibilität mit vielen anderen Marken wie z.B. Netatmo erweitert. Der vernetzte Lautsprecher der Marke ist der Google Nest. Es gibt auch eine Version mit Bildschirm, den Nest Hub. 

Netatmo-Produkte, die mit Google Assistant kompatibel sind:

Siri 

Der persönliche Assistent Siri wurde 2011 von Apple eingeführt. Wie andere Assistenten verarbeitet er die vom Benutzer eingegebenen Befehle oder Sprachsuchen. Die Besonderheit von Siri liegt darin, dass sie nur mit dem Apple-Ökosystem (IPhone, IPad usw.) kompatibel ist. Der vernetzte Lautsprecher von Apple ist der HomePod (auch als Mini-Version erhältlich).

Netatmo-Produkte, die mit der Apple-Homekit-App kompatibel sind (die Apple-App, mit der intelligente Produkte mit Siri integriert werden):

Alexa

Es war im November 2014, als Amazon Alexa und zur gleichen Zeit seinen Lautsprecher Amazon Echo auf den Markt brachte.  Im Gegensatz zu Siri oder Google Assistant ist ihr Aktivierungswort ihr direkter Name "Alexa", was etwas intuitiver zu sein scheint als ein "OK" oder "Hey". Die Stärke dieses Sprachassistenten liegt darin, dass er die Einkaufsgewohnheiten der Kunden bei Amazon sehr gut kennt. Bei Sprachbefehlen für einen Einkauf bei Amazon kann Alexa für den Kunden personalisierte Ergebnisse vorschlagen. Zudem ist Alex einer der Assistenten, der am häufigsten mit Produkten anderer Marken kompatibel ist. 

Mit Alexa kompatible Netatmo-Produkte: 

Bixby Voice

Weniger bekannt als Siri oder Alexa ist Bixby Voice, der persönliche Assistent, der von Samsung entwickelt wurde. Bixby Voice bietet im Großen und Ganzen die gleichen Funktionen wie die anderen Assistenten, ist aber dennoch nur auf Samsung-Telefonen und -Tablets zu finden. Um ihn zu aktivieren, muss man "Hi Bixby" sagen. Samsung erklärt, dass Bixby Voice Sprachbefehle auf subtile Weise versteht, d. h. es kann zwischen sehr ähnlichen Anfragen unterscheiden. Der vernetzte Lautsprecher von Samsung heißt Galaxy Home (auch als Mini-Version erhältlich).

Cortana

Im Jahr 2013 kündigte Microsoft die Veröffentlichung seiner Software Cortana an. Es wird von Microsoft als "Produktivitätsassistent" beschrieben, der mit Windows zusammenarbeitet. Die Software Cortana ermöglicht eine bessere Verwaltung von Aufgaben auf Microsoft (Kalender, Besprechungen, Erinnerungen usw.): Drücken Sie einfach auf die Mikrofontaste, um Cortana mit dem Weckwort "Hey Cortana" zu starten. 

Das Besondere an diesem Assistenten ist, dass er in das Microsoft-System integriert ist und mit Microsoft Office verwendet werden kann, weshalb es hauptsächlich auf Computern mit Windows 10 oder 11 läuft, aber auch von dem Windows Phone mit der Version Windows 8.1 (und höher) benutzt werden kann. 

Dragon NaturalSpeaking 

Wie der Windows-Assistent ist auch Dragon NaturalSpeaking eine Software, die es ermöglicht, den Computer per Sprache zu bedienen, und die insbesondere für Übersetzungen verwendet wird. Es läuft auf anderen Office-Programmen wie Word oder Excel, aber auch auf Webbrowsern. Die Nutzerinnen und Nutzer verwenden sie hauptsächlich für Wortdiktierung. Dragon NaturalSpeaking ermöglicht die Transkription von Audioaufnahmen, die Bearbeitung des diktierten Textes und eine eventuelle Korrektur. Die Dragon-Software ist für ihre Genauigkeit bekannt, da sie im Durchschnitt weniger Fehler machen soll als ein Benutzer, der den Text über eine Tastatur eingibt.

Fazit

Spracherkennungssysteme sind auf dem Vormarsch. Jede Marke bietet ihren eigenen persönlichen Assistenten an, der mit ihrem Ökosystem funktioniert (Siri, Bixby) oder sich auf die Produkte anderer Marken ausdehnt (Alexa, Google Assistant). Anwendungen wie Apple Homekit oder Google Home bieten den Nutzern die Wahl, ihr Zuhause mithilfe von Spracherkennung (und im weiteren Sinne künstlicher Intelligenz) vollständig zu vernetzen.  Letztendlich haben die verschiedenen Sprachassistenten ähnliche Anwendungen (Sprachsteuerung, Diktieren eines Textes usw.). Am Ende liegt es am Nutzer, das digitale System zu wählen, mit dem er sich am wohlsten fühlt.