Die Auswirkungen der Sprachassistenzsysteme von Amazon, Google und Apple auf den Onlinehandel in Europa Masterarbeit

Die Seite wird erstellt Thorsten Krieger

Computer und Technik

Deutsch

Like
Teilen
Einbetten
Vollbild
Folien
HTML Herunterladen
PDF Herunterladen
Missbrauch

←

WEITER LESEN

→

Transkription von Seiteninhalten

Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten

Die Auswirkungen der Sprachassistenzsysteme von Amazon, Google und Apple auf den Onlinehandel in Europa Masterarbeit

Jakob Nimmerfall

   Die Auswirkungen der Sprachassistenzsysteme von
   Amazon, Google und Apple auf den Onlinehandel in
                       Europa

                               Masterarbeit

                 zur Erlangung des akademischen Grades
                         eines Master of Science
                  der Studienrichtung Betriebswirtschaft
                  an der Karl-Franzens-Universität Graz

Betreuer: Ao.Univ.-Prof. Mag. Dr.rer.soc.oec.Otto Petrovic

Institut: Institut für Operations und Information Systems

                                                             Graz, März 2021

Inhaltsverzeichnis

1. Einleitung........................................................................................................................................ 1

2. Hintergründe von Sprachassistenten............................................................................................... 5

2.1. Entwicklungen der Mensch-Maschine-Schnittstellen ............................................................. 5

2.1.1. Informationseingabe mittels Lochkarten ......................................................................... 7

2.1.2. Tastaturen, Monitore und Computermäuse ..................................................................... 7

2.1.3. Gestensteuerung über Touchscreens ............................................................................... 8

2.1.4. Ortsunabhängigkeit durch Sprachbefehle........................................................................ 9

2.2. Abgrenzung zwischen Sprachassistenz und Sprachsteuerung............................................... 11

2.3. Hardware- und Softwarebestandteile von Sprachassistenten ................................................ 12

2.3.1. Automated Speech Recognition .................................................................................... 14

2.3.2. Natural Language Processing ........................................................................................ 15

2.3.2.1. Natural Language Understanding .............................................................................. 16

2.3.2.2. Natural Language Generation.................................................................................... 17

2.4. Online-Funktionalität von Sprachassistenten ........................................................................ 18

2.5. Betriebssysteme und Voice-Apps .......................................................................................... 20

3. Ausgangslage der Szenarioanalyse ............................................................................................... 23

3.1. Sprachassistenten von Amazon, Google und Apple ............................................................... 23

3.2. Entwicklungen in der Welt des Digitalen .............................................................................. 25

3.2.1. Einfluss der Welt des Digitalen auf den europäischen Einzelhandel ............................ 26

3.2.1.1. Amazons Einfluss auf den europäischen Onlinehandel ............................................. 28

3.2.1.2. Googles Einfluss auf den europäischen Onlinehandel .............................................. 29

3.2.1.3. Apples Einfluss auf den europäischen Onlinehandel ................................................. 30

3.2.2. Sprachassistenten im europäischen Onlinehandel ......................................................... 32

4. Entwicklung der Extremszenarien ................................................................................................ 35

4.1. Kurzdarstellung der angewandten Methodik......................................................................... 35

4.1.1. Bestimmung der Treiber des sprachgesteuerten Onlinehandels in Europa ................... 38

4.1.2. Beurteilung der Treiber nach Unsicherheit und Einfluss .............................................. 40

4.1.3. Identifikation von Interdependenzen unter den Treibern .............................................. 42

4.1.4. Bündelung der Treiber und Verdichtung zu kritischen Unsicherheiten ........................ 43

4.2. Definition der vier Extremszenarien ..................................................................................... 44

4.2.1. Übersicht der Szenarien................................................................................................. 45

4.2.2. Szenario A: Hohe Integration und Kooperation ............................................................ 46

4.2.3. Szenario B: Niedrige Kooperation und hohe Integration .............................................. 47

4.2.4. Szenario C: Niedrige Integration und Kooperation ....................................................... 48

4.2.5. Szenario D: Hohe Kooperation und niedrige Integration .............................................. 49

4.3. Sprachgesteuerte Kaufprozesse in den Szenarien ................................................................. 50

4.3.1. Sprachgesteuerte Kaufprozesse in Szenario A .............................................................. 51

4.3.2. Sprachgesteuerte Kaufprozesse in Szenario B .............................................................. 52

4.3.3. Sprachgesteuerte Kaufprozesse in Szenario C .............................................................. 53

4.3.4. Sprachgesteuerte Kaufprozesse in Szenario D .............................................................. 54

4.4. Funktionen von Sprachassistenten entlang der Customer Journey ....................................... 55

5. Zusammenfassung ........................................................................................................................ 57

Quellenverzeichnis ................................................................................................................................ 61

Anhang .................................................................................................................................................. 76

Abkürzungsverzeichnis

API      Application Programming Interface
ASR      Automated Speech Recognition
CEO      Chief Executive Officer
DM       Dialog Manager
HMI      Human Machine Interface
KI       Künstliche Intelligenz
NLG      Natural Language Generation
NLP      Natural Language Processing
NLU      Natural Language Understanding

Abbildungsverzeichnis
Abb.1: Fachliteratur KI und NLP (Textanalysen und Lernen) nach Forschungsgebieten (Stand
          17.09.2019) ................................................................................................................................. 2
Abb.2: Entwicklung der Mensch-Maschine-Schnittstelle in Bezug auf Computer ................................. 6
Abb.3: Übersicht der Software-Komponenten von Alexa..................................................................... 13
Abb.4: Umsatztrends von Apple nach den operativen Segmenten von 2012-2020 .............................. 31
Abb.5: Globaler Smartphone-Absatz zum Endkunden 2007-2021 ....................................................... 31
Abb.6: Absatz von Smart-Speakern in Europa in Mio. – Trend bis 2025 ............................................. 33
Abb.7: Der Szenario-Trichter und die Grundtypen des Szenarios ........................................................ 35
Abb.8: Angepasster Szenario-Trichter .................................................................................................. 36

1. Einleitung
Das frühe 21. Jahrhundert wurde durch die Entwicklung des Touchscreens geprägt. Die
Gestensteuerung stellte eine tiefgreifende Veränderung in der Art, wie Menschen mit Menschen
und Menschen mit Maschinen interagieren, dar. Zudem haben Smartphones in Kombination
mit der Vernetzung durch das Internet unser Einkaufsverhalten massiv beeinflusst.1 Aber auch
abseits der Smartphones hat sich die Gestensteuerung über Touchscreens zu einem Standard
entwickelt (Informations- und Bestellterminals, Board-Computer in Autos, Smart-Watches).
Die nächste Revolution bei der Steuerung von elektronischen Geräten und Maschinen steht uns
allerdings schon bevor.2

Sprachsteuerungssysteme werden sich insbesondere dort, wo Gestensteuerung aufgrund ihrer
Orts- bzw. Hardwaregebundenheit keinen Vorteil ergibt, etablieren. Das Navigationssystem im
Auto über einen Touchscreen während der Fahrt zu bedienen, erweist sich im Vergleich zur
Steuerung über Sprachbefehle als unpraktisch. Ebenso ist es im Haushalt, beim Ein- und
Ausschalten des Lichts. Warum aufstehen, wenn der Lichtschalter auch vom Sofa aus gesteuert
werden kann? Das Kernelement eines solchen Sprachsteuerungssystems ist dabei die Software,
die die Logik der Anfragebearbeitung beinhaltet. Als Hardware-Komponenten werden im
weiteren Sinne lediglich ein Lautsprecher und Mikrofon benötigt. Bei der Entwicklung von
Software im Bereich der Sprachsteuerung haben sich in den vergangenen Jahren unter anderem
drei Namen hervorgetan. Amazons Alexa, Google Assistant und Siri von Apple spielen heute
eine federführende Rolle bei der Etablierung von Sprachsteuerungssystemen und
Sprachassistenten in Europa und führen den Markt an.3

In Europa werden Sprachassistenten noch vermehrt zur Abfrage von Informationen und
Steuerung genutzt („Hey Siri, wie wird das Wetter heute?“ oder „Alexa, schalte das Licht im
Wohnzimmer ein!“).4 Die Zukunft liegt aber in einer erweiterten Interaktion5 und
Sprachassistenten werden von reinen Informationslieferanten zu Interaktionspartnern, die ein
intelligentes Feedback auf Fragen geben können und im Alltag assistieren.6 Amazons Alexa hat
es bereits heute in den USA geschafft, sprachgesteuerten Einkauf massentauglich zu machen

1
vgl. Hörner (2019), 2 und Vogelsang (2018), 5
2
vgl. Kreutzer et al. (2019), 129 ff.
3
vgl. Brill et al. (2019), 1415 ff.
4
vgl. Lenz-Kesekamp (2018), 3
5
vgl. Bosthow-Thies (2020), 519
6
vgl. Deloitte et al. (2018), 12 ff.

und auch akzeptiert zu werden.1 In Zukunft könnten Sprachassistenten auch Einfluss auf den
europäischen Onlinehandel haben. So postulieren Deloitte et al. im Jahr 2018 erschienenen
Bericht "Beyond Touch - Voice-Commerce 2030“, dass Amazon, Google und Apple2 treibende
Kräfte hinter einer disruptiven Veränderung im Onlinehandel werden könnten, die vor allem
durch den Einsatz von Sprachassistenten bedingt sei.3

Sprachassistenten werden in der Forschung vorrangig unter dem Schirm der Bereiche
Künstliche Intelligenz (KI) und Natural Language Processing (NLP) geführt und finden im
Vergleich zur Anzahl an technischen Publikationen in der Forschung der
Wirtschaftswissenschaft nur geringe Beachtung. Buchkremer führte im September 2019 eine
Untersuchung der wissenschaftlichen Fachpublikationen zu NLP und KI durch. Dabei
analysierte er die Fachliteratur der Plattform Web of Science.4 Die genaue Angabe des
Studiendesigns befindet sich im Anhang. Folgende Grafiken zeigen die Anzahl an
Fachpublikationen nach Forschungsgebieten und Ländern.

Abb.1: Fachliteratur KI und NLP (Textanalysen und Lernen) nach
Forschungsgebieten (Stand 17.09.2019)
Quelle: Buchkremer (2020), 37ff.

1
vgl. Hörner (2019), 1 ff.
2
Anmerkung: Im Rahmen dieser Arbeit werden Amazon.com, Inc., Alphabet, Inc. und Apple Inc. aufgrund der
allgemein höheren Bekanntheit der Markennamen fortan als Amazon, Google und Apple angeführt.
3
vgl. Jongen et al. (2019), 32 und Deloitte et al. (2018), 28 ff.
4
vgl. Buchkremer (2020), 37 ff.

Dementsprechend sind 2,48 % Prozent der Fachpublikationen den Forschungsgebieten
Business Economics (1,27 %) und Operations Research and Management Science (1,21 %)
zuzuschreiben, wobei 5,2 % der gesamten Fachpublikationen dem deutschsprachigen Raum
entspringen. Den Disziplinen KI und NLP wird im deutschsprachigen Raum generell eine hohe
Bedeutung in der publizierenden Forschung im Vergleich zum internationalen Durchschnitt1
zugewiesen. Die Wirtschaftswissenschaft mischt jedoch nur in geringfügigem Maße mit,
obwohl KI und NLP disruptives Potential für den Onlinehandel aus der Wirtschaft
zugesprochen wird.2

Die Kerntechnologien von Sprachassistenten Automated Speech Recognition (ASR), Natural
Language Understanding (NLU) und Natural Language Generation (NLG) werden in der
Forschung vor allem in einem computer-linguistischen Kontext beleuchtet.3 Grundlegende
Beschreibungen       dieser    Technologien       und    der    allgemeinen      Funktionsweise       von
Sprachassistenten mit umfangreichen Schilderungen ihrer wirtschaftlichen Relevanz,
insbesondere für die Zielgruppe der Wirtschaftsinformatiker, konnten nicht gefunden werden.4
Wobei das übergeordnete Thema KI, welches vor allem in seiner Anwendung für die
Wirtschaftsinformatik von Bedeutung ist, sowohl in der naturwissenschaftlichen als auch
geisteswissenschaftlichen Forschung intensiv diskutiert wird.5

    Google CEO Sundar Pichai – „Künstliche Intelligenz ist eines der wichtigsten Dinge, an
    denen Menschen arbeiten. Ihre Bedeutung ist grundlegender als Elektrizität oder das
    Feuer.“6

    Microsoft CEO Satya Nadella – „Künstliche Intelligenz ist nicht einfach nur eine weitere
    Technologie, es könnte eine der wirklich grundlegenden Technologien sein, die
    Menschen jemals entwickelt haben.“7

Der zukünftige Einfluss, den Sprachassistenten auf den Onlinehandel haben werden, wird
derzeit marginal behandelt. Das Thema wird in Trend-Berichten und unwissenschaftlichen
Publikation von Handelsverbänden und Marktakteuren des Handels oder handelsnaher
Branchen aufgegriffen, spielt aber in wissenschaftlicher Literatur zu KI oder dem Onlinehandel

1
  vgl. Buchkremer (2020), 38 ff.
2
  vgl. Hörner (2019), 2 und Deloitte et al. (2018), 1 und Lenz-Kesekamp (2016), 2 und Wittpahl (2018), 1 und
  Jongen (2019), 32 ff.
3
  vgl. Buchkremer (2020), 39
4
  vgl. Deloitte et al. (2018), 32
5
  vgl. Jandt (2020), 120 und Gola (2019), 570ff. und Rieß (2020), 498ff. und Fischer (2018), 78
6
  Pichai (2018) zitiert nach Thielicke (2018), 5
7
  Nadella (2018) zitiert nach Thielicke (2018), 5

                                                     3

eine nebensächliche Rolle.1 Der Einfluss, den Baidu und Alibaba auf die Entwicklung von
Sprachassistenten im asiatischen Raum haben, soll nicht behandelt werden, da dieserorts
Wandel im Allgemeinen einer anderen Dynamik folgt und eine Untersuchung der
Auswirkungen auf dieses Gebiet das Ausmaß der Arbeit übersteigen würde.2 Aus zweiterem
Grund wird ebenso davon abgesehen den Einfluss von Amazon, Google und Apple außerhalb
Europas zu behandeln.

1
    vgl. Wittpahl (2018), VII und KPMG (2016), 17 und Buchkremer (2020), 36 ff.
2
    vgl. Hon-fun Poon et al. (2010), 596

                                                       4

2. Hintergründe von Sprachassistenten
Im ersten, eklektischen Teil dieser Arbeit werden die bislang wenig beschriebenen1
Funktionalitäten und funktionalen Abhängigkeiten von Sprachassistenten mit besonderem
Bezug auf die Kerntechnologien der Software für Nicht-Techniker verständlich erklärt.
Besondere Aufmerksamkeit gilt dabei den Fragen, wie sich die Entwicklung von Mensch-
Maschine-Schnittstellen auf die Computernutzung ausgewirkt hat und wie die
Kerntechnologien von Sprachassistenten auf ebendieses Nutzungsverhalten Einfluss nehmen
können.

2.1. Entwicklungen der Mensch-Maschine-Schnittstellen
Die Steuerung von Maschinen durch verbale Befehle stellt die Spitze einer Entwicklung dar,
die die Menschheit seit der Antike vorantreibt. Angefangen mit den babylonischen
Schöpfwerken, die händisch über eine Kurbel betrieben Wasser an die Oberfläche befördern
konnten, bis hin zum letzten großen Entwicklungssprung Ende des 20. Jahrhunderts – der
Gestensteuerung von mobilen Computern über einen Touchscreen.2

In der Antike handelte es sich um mechanische Funktionen, die zumeist durch körperliche
Kraftbetätigung initiiert wurden. Durch die Erfindung der Dampfkraftmaschine zu Zeiten der
industriellen Revolution musste dies nicht mehr von Hand geschehen. Hebel, Knöpfe und
Schalter traten in den Mittelpunkt der Frage um eine nutzerfreundliche Schnittstelle zwischen
Mensch und Maschine.3 Im Jahr 1941 stellte Zuse den Z3, einen Vorgänger heutiger Computer
fertig und ebnete einer disruptiven Entwicklung, die Jahrzehnte später als digitale Revolution
bekannt werden würde, den Weg. Die zunehmend ins Interesse der Technologie rückenden
Computer schufen auch eine neue Perspektive auf die Thematik der Mensch-Maschine-
Schnittstellen (Human-Machine-Interfaces – HMI) – wobei der Begriff Maschine in diesem
Kontext auch immer stärker mit Geräten, Automaten, Apparaturen, Anlagen und Werkzeugen
assoziiert wurde4. Und wiederum stellte sich in den Reihen der Entwickler die Frage, wie diese
neuen Gerätschaften nutzerfreundlich gesteuert werden konnten.5

1
vgl. Buchkremer (2020), 36 ff.
2
vgl. Burckhardt (1999), 45 ff.
3
vgl. Strandh (1980), 72 ff.
4
Anmerkung: In Folge wird der Begriff Gerät stellvertretend verwendet.
5
vgl. Hörner (2019), 2

Im Hinblick auf Computer waren es nun nicht mehr mechanische Funktionen, die mittels eines
Hebels in Gang gesetzt wurden, sondern Anweisungen und Aufgaben, die dem Computer
aufgetragen werden mussten, damit er diese bearbeiten kann. Zu Zeiten der babylonischen
Schöpfwerke war die Effektivität der Kraftübertragung die wesentliche Anforderung an die
Schnittstelle zwischen Mensch und Maschine. Die Funktionen, die ein Computer zu erfüllen
hat, erfordern hingegen eine hohe Informationsbekanntgabe durch den Menschen.1 Mit
steigender Automatisierung wandelte sich so die Anforderung an HMI von effektiver
Kraftübertragung zu nutzerfreundlichem Informationsaustausch. Effektive Kraftübertragung ist
im Maschinenbau zwar immer noch ein wichtiger Aspekt, jedoch ist der Mensch in der Regel
nicht mehr der Antrieb der Maschine, somit verlor diese auch an Relevanz für HMI.

Durch die Entwicklung der Gestensteuerung über Touchscreens erreichte die
Nutzerfreundlichkeit von Computern Ende des 20. Jahrhunderts ein neues Level – die
Selbsterklärungsfähigkeit. Hörner schreibt, dass sogar Kinder, die zuvor keine Erklärung
bekommen haben, ein Smartphone oder Tablet intuitiv bedienen können.2 In den Anfängen des
Computerzeitalters waren es allerdings nicht die Rechner, die sich der menschlichen
Kommunikation anpassten, sondern die Menschen, die lernen mussten, Befehle so zu erteilen,
dass sie die Computer ausführen konnten. Die Komplexität in der Kommunikation mit Geräten
nahm aufgrund des technologischen Fortschritts zunehmend ab (siehe Abb. 2) daher liegt der
Fokus in der Forschung und Entwicklung von HMI heute auf einer möglichst hohen
Übereinstimmung mit natürlicher Mensch-Mensch-Kommunikation.3

Abb.2: Entwicklung der Mensch-Maschine-Schnittstelle in Bezug auf Computer
Quelle: Hörner (2019), 2

Um die Bedeutung der Selbsterklärungsfähigkeit bei der Steuerung von Geräten durch
Sprachassistenten und die Art, wie sich menschliches Verhalten im Umgang mit diesen

1
vgl. Baumann et al. (1998), 12.
2
vgl. Hörner (2019), 3 ff.
3
vgl. Nievergelt (1983), 3 ff.

verändert hat, zu verstehen, wird im Anschluss genauer auf die einzelnen Entwicklungsschritte
von HMI in Bezug auf Computer eingegangen.

2.1.1. Informationseingabe mittels Lochkarten

Zur Erteilung von Anweisungen wurden den ersten Computern Informationen über Lochkarten
vermittelt. In diese Papier- oder Kartonkarten waren Löcher gestanzt. Das Muster der Löcher
repräsentierte die Anweisung und konnte von Rechenmaschinen (ehem.) gelesen werden. Es
benötigte eine spezielle Ausbildung, um eine Anweisung in ein Lochmuster zu übersetzen und
somit waren Computer für eine kleine Nutzergruppe limitiert.1 Auch war eine Verbreitung der
Rechenmaschinen über diese Experten hinaus kaum möglich. Am Beispiel der Lochkarten ist
zu erkennen, dass die Verbreitung der Computer von der Nutzbarkeit abhängt und dass diese
unabhängig von den tatsächlichen Funktionen des Geräts durch die Nutzerfreundlichkeit der
HMI limitiert werden kann. Smartphones hätten sich trotz aller praktischen Funktionen
vermutlich nicht derartig weit verbreitet, wenn sie mit einer Tastatur und Computermaus
gesteuert werden hätten müssen. Die Nutzbarkeit steht in dieser Analogie für das „Wer kann
ein Gerät nutzen?“ und die Nutzerfreundlichkeit der HMI für das „Wie kann ein Gerät genutzt
werden?“.2

2.1.2. Tastaturen, Monitore und Computermäuse

Um die Nutzbarkeit und gleichzeitig die Verbreitung von Computern zu erhöhen, war die
Entwicklung von Eingabegeräten, wie Tastaturen und Computermäusen, und Anzeigegeräten,
wie Monitoren, ein wichtiger Schritt. Die Eingabe über eine Tastatur ähnelte der damals weit
verbreiteten Schreibmaschine. Über die Eingabe bestimmter Zeichenfolgen oder Codewörter
konnten Funktionen aufgerufen werden. Es benötigte nun keine spezielle Ausbildung mehr,
sondern einer Einschulung. In diesem Fall erweiterte sich der potentielle Nutzerkreis von
Fachexperten zu einer Allgemeinheit ohne spezielle Ausbildung. Durch Computermäuse wurde
auch das Eintippen von Befehlen obsolet, da diese über das Anklicken einer Schaltfläche
ausgeführt wurden. Die Nutzerfreundlichkeit der HMI stieg und damit verbunden auch die
Popularität von Computern.3 An dieser Stelle ist zu ergänzen, dass sich neben der gestiegenen
Nutzerfreundlichkeit der HMI die Entwicklung der ersten Microsoft-Betriebssysteme ebenso
stark auf die Verbreitung von Computern ausgewirkt hat. Schlussendlich ist aber anzunehmen,

1
vgl. Bode (1968), 4 ff.
2
vgl. Hörner (2019), 3
3
vgl. Hörner (2019), 3 ff.

dass Computer ihre heutige Popularität nicht erreicht hätten, wenn diese zu Beginn des 21.
Jahrhunderts noch mit Lochkarten gesteuert hätten werden müssen.1

2.1.3. Gestensteuerung über Touchscreens

Die aufkommende Mobilisierung und Miniaturisierung von Elektrogeräten Ende des 20.
Jahrhunderts forderte auch neue Konzepte für HMI. Der Touchscreen war nach Computermaus
und Tastatur der nächste Evolutionsschritt von Steuerungssystemen.2 Bis hierher wurde der
virtuelle Cursor auf einem Monitor mittels der Computermaus bewegt. Durch die Nutzung eines
Touchscreens konnten Funktionen von nun an direkt am Bildschirm gestartet werden, da dieser
Eingabegerät und Monitor zugleich ist. Das Ausführen einer Aktion über einen Touchscreen
stellt somit eine natürlichere Interaktion mit dem Gerät dar. Der Touchscreen erscheint als Lupe
auf einen ausgewählten Ausschnitt einer Karte mit mehreren Ebenen. Das Wischen, um den
Ausschnitt zu bewegen und Tippen, um in eine tiefere Ebene zu wechseln, können aufgrund
der Erfahrungen in der Nutzung von anderen Medien intuitiv ausgeführt werden. Das Wischen
erinnert an das Umblättern einer Seite eines Buches. Das Tippen kann mit dem Klicken einer
Computermaus oder anderen Druckschaltern- und Knöpfen verglichen werden.3

Der Touchscreen machte das Werkzeug Maus aber nicht obsolet, sondern ergänzte die HMI auf
dem Anwendungsgebiet der Mobilgeräte. Die Computermaus gehört nach wie vor zur
Standard-Hardware in Büroräumlichkeiten. Insbesondere wenn motorische Präzision im
Tätigkeitsfeld verlangt wird, wie es etwa bei Grafik-Designern der Fall ist, übersteigen die
Vorteile einer Computermaus jene des Touchscreens.4 Dies trifft auch außerhalb des traditionell
professionellen Lebens zu. Im E-Sport sind Computermäuse und Joysticks nach wie vor
Touchscreens überlegen.5

Touchscreens ermöglichen eine höhere und vor allem auch erweiterbare Auswahl an Befehlen.
Neben dem Tippen, Wischen und Auseinanderziehen wurden im letzten Jahrzehnt viele weitere
Gesten entwickelt, die aus unterschiedlichen Tipp-, Wisch-, und Rotationsbewegungen durch
einen oder mehrere Finger bestehen.6 Ebendiese Vielfalt an intuitiven gestischen
Befehlsmöglichkeiten und die Ortsunabhängigkeit von Smartphones, in welchen Touchscreens

1
vgl. Eller (2012), 21 ff.
2
vgl. Becker et al. (2008), 38 ff.
3
vgl. Baumann et al. (1998), 14 ff.
4
vgl. Burnett et al. (2016), 163
5
vgl. Scholz (2019), 19 ff.
6
vgl. Heejin et al. (2017), 1534

eine zentrale Anwendung finden, führten zu hoher Beliebtheit dieser Geräte. Die Gruppe, die
Computer nutzen konnte, wuchs wiederum weiter. An dieser Stelle ist zu erwähnen, dass,
analog zur Rolle, die Microsoft bei der Verbreitung der Personal-Computer gespielt hatte, Apple
und Nokia mit der Entwicklung der ersten Smartphones einen wesentlichen Beitrag zur
Verbreitung des Touchscreens leisteten. Würde es sich beim iPhone um ein reines Tastengerät
handeln, hätte Apple es mit Sicherheit nicht annähernd so erfolgreich vertreiben können.1

2.1.4. Ortsunabhängigkeit durch Sprachbefehle

Der Schritt von nicht intuitiv bedienbaren Lochkarten hin zur Eingabe durch kabelgebundene
Computermäuse und Tastaturen hat die Nutzungsmöglichkeiten von Computern einer größeren
Personengruppe eröffnet. Es folgten die ersten Betriebssysteme von Microsoft auf Personal-
Computern. Die erhöhte Nutzerfreundlichkeit durch HMI und die vielfältigen
Anwendungsmöglichkeiten führten zu einer stärkeren Verbreitung der Computer. Im Jahr 2007
veröffentlichte Apple das erste iPhone. Ein Mobiltelefon, das sich neben einigen Tasten mit
geringer Funktionalität hauptsächlich über einen Touchscreen steuern ließ. Auch dieser
Entwicklungsschritt führte zu einer erleichterten und vor allem intuitiveren Steuerung der
Geräte.2 Die übliche Handy-Tastatur wurde nun nicht mehr benötigt, da die Bedienung direkt
über den Bildschirm vorgenommen werden konnte. Die Bildschirme der Mobiltelefone und
somit die Mobiltelefone selbst wurden zunehmend größer und konnten im Zusammenspiel mit
der selbsterklärenden Steuerung und dem Aufkommen des Internets in neuen
Anwendungsfeldern eingesetzt werden. Das Lesen eines Artikels oder Schauen eines Videos,
das zuvor auf einem Tastentelefon unüblich war, wurde durch eine höhere Bildschirmgröße-
und Auflösung praktikabel. Das Nutzungsverhalten im Bereich der Mobiltelefone passte sich
den neuen Möglichkeiten an. Das Smartphone ersetzte den Personal-Computer zwar nicht,
ergänzte jedoch die Anwendungsgebiete von Computern im Allgemeinen und wurde so zu
einem alltäglichen Begleiter von mehr als 3 Milliarden Menschen.3

Der Schritt zur berührungsfreien Steuerung stellt wie die zuvor beschriebenen Entwicklungen
ebenfalls eine umfassende Veränderung in der Bedienung von Geräten dar. Vergleichbar mit
den letzten Entwicklungsschritten zu Computermäusen, Tastaturen und Touchscreens kommt
es durch die neue Technologie in manchen Anwendungsgebieten zu einer Erhöhung der

1
vgl. Hörner (2019), 4 ff.
2
vgl. Bode (1968), 4 und Scholz (2019), 20
3
vgl. Newzoo (2019), 13

Nutzerfreundlichkeit. Die Verbesserung in der Art, wie ein Gerät gesteuert werden kann,
eröffnet wiederum neuen Nutzergruppen den Zugang zur Technologie und führt zu einer
stärkeren Verbreitung. Hier sind insbesondere jene Anwendungssituationen gemeint, in denen
eine händische Bedienung nicht oder erschwert möglich ist, wie zum Beispiel beim Autofahren.
Abseits davon bietet Sprachsteuerung einen möglichen Zugang zur Nutzung von zuvor
gestengesteuerten Geräten für Personen mit motorischer Beeinträchtigung.1 Ebenso könnte sich
Sprachsteuerung dort etablieren, wo eine berührungsfreie Bedienung eines Geräts wesentlich
komfortabler ist und der Nutzer aufgrund seiner Umwelt auch bereit wäre, Sprachbefehle zu
erteilen, etwa zu Hause zum Ein- und Ausschalten einer Lampe.2

Die berührungsfreie Steuerung über Sprachbefehle ist im Vergleich zu Touchscreens stärker
von der Hardware gelöst, da dem Gerät Anweisungen nicht mehr über den direkten Kontakt,
sondern über eine räumliche Distanz gegeben werden. Die Entschlüsselung dieser
Anweisungen ist vergleichsweise komplex.3 Die aktuell weitestverbreitete Art des
Touchscreens, der kapazitive Touchscreen, misst mittels Sensoren die Ladung eines
elektrostatischen Feldes, das bei Berührung zwischen dem Finger und einer dünnen leitenden
Schicht entsteht. Der Befehl des Nutzers wird schnell in ein elektrisches Signal transformiert.4
Vereinfacht dargestellt werden bei einem Touchscreen die elektrischen Signale der Sensoren in
Nullen und Einsen umgewandelt, diese können eindeutig gelesen und ausgeführt werden.
Sprachassistenten erhalten als ersten Schritt des Eingabeprozesses einen Sprachbefehl. Bevor
dieser in ein Digitalsignal transformiert und somit in eine für Computer leicht verständliche
Anweisung übersetzt werden kann, muss der Sprachassistent überhaupt erst die Bedeutung der
Anweisung verstehen. Erst nach der Interpretation des Audio-Signals können daraus eindeutige
Befehle abgeleitet werden. Diese Interpretation bedarf mehr Rechenleistung als die Hardware
eines Sprachassistenten aufbringen kann, daher werden die Signale vom Sprachassistenten an
externe Rechenzentren weitergeben (Cloud-Computing nach Mouftah5 oder Hammons et al.6).
Die eigentliche Verarbeitung der Sprachbefehle, die Kerntätigkeit des Sprachassistenten,
geschieht dementsprechend nicht am Smartphone oder Smart-Speaker, sondern in der Cloud.
Der Sprachassistent sollte demnach nicht auf das Gerät reduziert werden, auf dem er

1
vgl. Alvarez et al. (2012), 315 ff.
2
vgl. Hörner (2019), 5ff. und Buvat et al. (2018), 17
3
vgl. Gaub (2018), 105 ff.
4
vgl. Phares (2011), 1469
5
vgl. Mouftah, H. (2013), 140 ff.
6
vgl. Bajracharya et al. (2019), 24

Anwendung findet, da er einen Großteil seiner Funktionalität von dezentralen Ressourcen
bezieht.

2.2. Abgrenzung zwischen Sprachassistenz und Sprachsteuerung

Lenz-Kesekamp1 oder Orr2 verstehen Sprachassistenten vor allem als Software, Blass3
verwendet den Begriff Sprachassistent synonym zu Smart-Speaker und nach Hörner4 oder
Stummeyer5 sind Sprachassistenten eine Kombination aus zentralen und dezentralen Software-
und Hardware-Ressourcen, die in Abhängigkeit ihrer Anwendung stets differenziert betrachtet
werden sollen. Zusätzlich unterscheiden sich die Meinungen auch dahingehend, welche
Funktionen erfüllt werden müssen, damit von einem Sprachassistenten und nicht von
Sprachsteuerung gesprochen werden kann. Um ein einheitliches Verständnis zu schaffen,
erklären die folgenden Kapitel Sprachassistenten tiefergehend.6

Durch den 2011 eingeführten Sprachassistenten Siri stellte Apple eines der ersten Systeme
dieser Art einer großen Nutzergruppe zur Verfügung. Mit 93,1 Millionen verkauften iPhones
im selben Jahr war Apple zu dieser Zeit nach Samsung der Smartphone-Anbieter mit dem
höchsten jährlichen Absatz.7 2016 langten bereits über zwei Milliarden Anfragen pro Woche
auf den Servern von Siri ein.8 In den Anfangsjahren war die Funktionalität von Siri noch nahe
an einem reinen Sprachsteuerungssystem, neuere Versionen der Software wiesen hingegen das
Potential für Assistenzfunktionen auf, dennoch wird Siri nach wie vor von den meisten iPhone-
Besitzern nicht als das genutzt.9 Auf die Frage „Hey Siri, wie spät ist es?“ wird dem Nutzer die
genaue Ortszeit genannt. Auf den Befehl „Hey Siri, spiele in Spotify meine Lieblingssongs!“
wird die Spotify-App geöffnet und die Playlist abgespielt. Der Unterschied zu Sprachassistenten
ist, dass das Sprachsteuerungssystem lediglich Funktionen ausführt. Unabhängig davon, ob am
heutigen Tag ein Termin im Kalender eingetragen ist, der in einer Stunde beginnt, wird Siri auf
die Frage „Hey Siri, wie spät ist es?“ immer mit der aktuellen Ortszeit antworten, solange keine
genaue Konfiguration der Assistenzfunktionen durchgeführt wurde. Mit der Notwendigkeit

1
vgl. Lenz-Kesekamp et al. (2018), 18
2
vgl. Orr et al. (2018), 72
3
vgl. Blass (2018), 42
4
vgl. Hörner (2019), 3
5
vgl. Stummeyer (2020), 23
6
vgl. Kreifeldt et al. (2012), 249
7
vgl. IDC nach Statista (2020), [online]
8
vgl. Apple (2016), [online]
9
vgl. Brill et al. (2019), 1403 ff.

dieser Konfiguration, die dem Nutzer Zeit abverlangt, könnte unter anderem begründet werden,
warum die Sprachassistenzfunktionen wenig genutzt werden.1

Ein Sprachassistent würde auf die obige Frage die Ortszeit nennen und darauf hinweisen, dass
in einer Stunde der Kalendereintrag „Geburtstagsfeier Oma“ beginnt. Er würde wissen, dass
der Nutzer nicht mit dem Auto hinfährt, sondern die öffentlichen Verkehrsmittel nutzen wird
und ihm daher die nächsten Verbindungen ansagen. Zusätzlich würde er darauf hinweisen, dass
beim Wechsel zweier Buslinien eine Wartezeit von 10 Minuten entsteht und direkt neben der
Haltestelle ein Blumenladen geöffnet hat.2 Der Sprachassistent ist im wahrsten Sinne des
Wortes ein Assistent. Die Qualität der Assistenzleistungen lebt von Informationen, die er über
das Verhalten des Nutzers hat. Durch Methoden der Datenanalyse, basierend auf Machine-
Learning-Modellen, kann er Rückschlüsse auf andere Anwendungsfälle ziehen und dadurch
nicht nur Anweisungen folgen, sondern mit seinem Nutzer inhaltlich erweitert interagieren.3

2.3. Hardware- und Softwarebestandteile von Sprachassistenten

Um Anweisungen auszuführen, auf Fragen zu antworten oder Ratschläge zu geben, benötigen
Sprachassistenten Software und Hardware. Die Software stellt das Gehirn des Systems dar.4 Sie
basiert auf Ebene der Audiosignalverarbeitung auf Automated Speech Recognition (ASR) und
auf Ebene der semantischen Sprachverarbeitung und -wiedergabe auf Natural Language
Processing (NLP), welches auf zwei Kerntechnologien aufgeteilt werden kann: Natural
Language Understanding (NLU) und Natural Language Generation (NLG).5 Einzelne
Anbieter, beispielsweise Amazon (siehe Abb. 3), benennen Teilsysteme ihrer Sprachassistenten
abweichend, jedoch unterscheidet sich das Funktionskonzept nur geringfügig, da die
zugrundeliegenden Technologien übereinstimmen.

1
vgl. Kreifeldt et al. (2012), 256 ff.
2
vgl. Hörner (2019), 12
3
vgl. Kreutzer (2019), 147 ff.
4
vgl. Lenz-Kesekamp et al. (2018), 18 und Orr et al. (2018), 72
5
vgl. Hörner (2019), 11 ff. und Deloitte et al. (2018), 19 und Kreutzer (2019), 139 ff.

Abb.3: Übersicht der Software-Komponenten von Alexa
Quelle: Deloitte et al. (2018), 16

Die Hardware fungiert als Ohren und Mund. Ein sprachsensibilisiertes Mikrofon hört dem
Nutzer zu und gibt über einen Lautsprecher ein synchronisiertes, verbales Feedback. Software
und Hardware stehen in funktionaler Wechselwirkung und haben Einfluss auf das
Nutzungsverhalten.1Die Forschung schenkt der Software jedoch größere Aufmerksamkeit2, da
die Weiterentwicklung der KI, die hinter der Software steht, maßgeblicheres Potential zur
Einflussnahme auf den Kundennutzen und das Nutzungsverhalten hat, als es Lautsprecher und
Mikrofon haben. Ebenso wird der Software zugesprochen, das Verhalten der Nutzer in Bezug
auf Kauf- und Konsumentscheidungen stark beeinflussen zu können.3 Keine HMI hatte zuvor
so großes Potential, in den Alltag des Nutzers einzugreifen.4

Zur Veranschaulichung wird das vorherige Beispiel unter Berücksichtigung eines Wechsels
von der Kundensicht zur Sicht des Sprachassistenten erneut beschrieben. Der Nutzer stellt die
Frage „Hey Siri, wie spät ist es?“. Nun gibt der Sprachassistent einerseits die Ortszeit wieder
und macht den Nutzer zusätzlich darauf aufmerksam, dass in einer Stunde der Kalendereintrag
„Geburtstagsfeier Oma“ beginnt. Im zuvor angeführten Beispiel schlägt er dem Nutzer
aufgrund der Daten, die er von ihm besitzt, die schnellste Busverbindung und ein

1
vgl. Guerrero (2017), 242
2
vgl. Buchkremer (2020), 36 ff.
3
vgl. Hörner (2019), 190
4
vgl. Blass (2018), 43

Blumengeschäft zum Kauf eines Geburtstagsgeschenks während einer Wartezeit vor.1 Diese
Empfehlung entspräche dem bisherigen Verhalten des Nutzers. Nun könnte der Sprachassistent
auch vorschlagen, ein Taxi zu rufen und in der gewonnenen Zeit ungelesene E-Mails zu
beantworten. Er könnte dem Nutzer auch eine Confiserie anstatt des Blumenladens empfehlen.
Die Reaktionsmöglichkeiten des Sprachassistenten hängen einerseits von den Präferenzen und
dem bisherigen Verhalten des Nutzers ab und sind somit indirekt nutzergesteuert, aber vor allem
auch von der Logik zur Befehlsverarbeitung der Software. Die Software entscheidet darüber,
welche Antwort der Nutzer bekommt und kann dahingehend tiefgreifend auf Entscheidungen
des Nutzers Einfluss nehmen. Aufgrund der entscheidenden Bedeutung dieser
Weiterentwicklung sollen die einzelnen Kerntechnologien der Software von Sprachassistenten
anschließend genauer beschrieben und hinsichtlich ihres Potentials zur Einflussnahme auf das
Nutzerverhalten analysiert werden.2

2.3.1. Automated Speech Recognition

Bei automatischer Spracherkennung (ASR) wird das analoge Eingangssignals durch Abtastung
in eine für den Computer verarbeitbare Bitfolge umgewandelt.3 In einem nächsten Schritt
werden Hintergrundgeräusche ausgefiltert. Anschließend wird das Signal aus dem Zeitbereich
in den Frequenzbereich transformiert. Über weitere Transformationen und Aufteilungen des
Frequenzbereichs wird ein Merkmalsvektor erstellt. Dieser fasst numerische Charakteristika
eines Musters in vektorieller Darstellung zusammen.4 Bei der Umwandlung des
Merkmalsvektors in Textzeichen werden zwei Ansätze verfolgt, die Anwendung des Hidden-
Markow-Modells und die Nutzung von Neural- Networks.5 Zweitere sind in den letzten Jahren
aufgrund der Entwicklung von Deep-Machine-Learning-Modellen in den Vordergrund
gerückt.6 Dabei ist der Ansatz der Deep-Neural-Networks entstanden. Vereinfacht ausgedrückt
handelt es sich dabei um ein vielschichtiges Netz aus mathematischen Modellen und Regeln.
In der untersten Schicht des Netzwerks befindet sich die Basis an grundlegenden Konzepten.
In jeder Schicht darüber werden die einzelnen Regeln und Modelle miteinander kombiniert und
nehmen an Komplexität zu. Der Computer sammelt bei der Lösung einer Aufgabe Erfahrungen
über die Zusammensetzung des Lösungskonzepts und kann lernen, komplizierte Aufgaben zu

1
vgl. Brandl (2020), 21 ff.
2
vgl. Lee (2019), 72 ff. und Deloitte et al. (2018), 16
3
vgl. Benesty et al. (2008), 10.
4
vgl. Lawrence et al. (2008), 163 ff.
5
vgl. Chapman et al. (2011), 549
6
vgl. Huang et al. (2010), 2 ff.

bewältigen, indem er den Lösungsansatz aus einfacheren Modellen und Regeln basierend auf
seinen Erfahrungen zusammensetzt.1

Bei ASR spielt die Bedeutung der Anweisungen insofern noch keine direkte Rolle, als primär
auf eine möglichst hohe Übereinstimmung zwischen dem Merkmalsvektor und dem
Sprachbefehl (Eingangssignal) abgezielt wird. Je höher die Translationsgenauigkeit zwischen
dem analogen und finalen digitalen Signal ist, desto besser kann jedoch in einem nächsten
Schritt die Bedeutung analysiert werden und dabei entsteht auch das Potential zur
Einflussnahme auf den Nutzer. Somit steht die ASR-Technologie in der Kausalkette der
Faktoren, die ein Sprachassistenzsystem Einfluss auf das Nutzerverhalten nehmen lassen, an
erster Stelle, auch wenn sie nur indirekt darauf einwirkt.2

2.3.2. Natural Language Processing

NLP befasst sich mit dem Verstehen von natürlicher Kommunikation durch Computer und stellt
eine Kerntechnologie der Sprachassistenz-Software dar.3 Verstehen steht im engeren Sinne für
die Erkennung der Muster im Sprachgebrauch.4 Dabei werden computerbasierte
Translationsvorgänge auf den Ebenen Sprache-zu-Sprache (STS), Text-zu-Sprache (vice versa
– TTS, STT) und Text-zu-Text (TTT) durchgeführt.5

Zu Beginn der NLP-Forschung vor 70 Jahren waren die Ansätze zur Verarbeitung von
natürlicher Sprache symbolbasiert. Programme unterlagen einem festgelegten Regelwerk,
welches der Computer zur Translation eines Textes heranzog. Diese Programme waren statisch
und bildeten sinngemäß die stichtagsbezogene Fähigkeit ihres Programmierers wieder, da sie
natürliche Sprache nur so gut verarbeiten konnten, wie es der zugrundeliegende Code zuließ.
Die mangelnde Fokussierung des Sprachverständnisses (Morphologie, Semantik, i.a.) und die
geringe Dynamik der Systeme ließ diese wenig nutzerfreundlich sein. Mit der statistischen
Revolution Ende des 20. Jahrhunderts, der zunehmenden Leistungsstärke von Computern und
dem wachsenden Bewusstsein für die Relevanz des Sprachverständnisses im Sinne von NLU
stiegen auch die Anwendungsmöglichkeiten von NLP-basierten Programmen.6

1
vgl. Gatt et al. (2018), 97
2
vgl. Schukat-Talamazzini (1995), 45 und Hörner (2019), 15 ff.
3
vgl. Buchkremer (2020), 32 ff.
4
vgl. Dwivedi et al. (2019), 5ff. und Chapman et al. (2011), 544
5
vgl. Deloitte et al. (2018), 16 und Buchkremer (2020) 37 ff.
6
vgl. Ekbia (2010), 201 ff

2.3.2.1. Natural Language Understanding

An dieser Stelle der Sprachverarbeitung steht insbesondere die Bedeutung der Sprache im
Vordergrund. NLU, als Teilbereich von NLP, analysiert im Kontext der Verwendung von
Sprachassistenten die zuvor durch ASR verschriftlichte Audiosequenz anhand von
Mustererkennungsmethoden und filtert die Bedeutung und den Intent des Nutzers aus dem
Text.1 Der Intent steht dabei für den Willen hinter einer Anweisung, die auszuführen ist.2 Zum
ersten Mal ist bei der Interaktion über eine HMI Verstehen notwendig, da die wechselseitigen
Aktionen und Reaktionen über die Verarbeitung einfacher elektronischer Signale hinausgehen.
Bevor eine Anweisung ausgeführt werden kann, muss diese verstanden worden sein.3

Die Komplexität bei der Verarbeitung natürlicher Sprache liegt vor allem in der Variabilität
dieser. Allein die deutsche Sprache unterscheidet sich in ihrer Verwendung im DACH-Raum
stark. Nach Polenz gibt es in Deutschland Anfang des 21. Jahrhunderts 53 Dialekte. Jeder
Dialekt unterscheidet sich demnach in der Semantik, Morphologie und teilweise auch
Grammatik voneinander.4 Um flächendeckend ein NLP-System einzusetzen, das auch mit
diversen Dialekten umgehen kann, benötigt es eine Vielzahl an Regeln, aber vor allem auch
Daten, aus denen diese Regeln erschlossen werden können. Mit dem Internet wurde der
Forschung und Entwicklung eine Datenquelle geliefert, die diesen Ansprüchen gerecht wird.
Vor allem aber Deep-Machine-Learning-Ansätze haben bei der Verarbeitung im Bereich des
NLU einen neuen Maßstab gesetzt, der mit der Variabilität von Sprache umgehen kann.5
Dialekte, Akzente, Slangs und Sprachmarotten sind für NLU-Systeme bewältigbar, sofern sie
sich diese spezifischen Regeln und Veränderungen selbst aneignen können. Durch Deep-
Machine-Learning können NLU-Systeme aus den Mustern der zugrundeliegenden Daten lernen
und die gesammelten Erfahrungen auf neue Problemszenarien anwenden. Auch wenn sich
Computer nicht von allein beibringen können, unterschiedliche Dialekte problemlos zu
verstehen, schafft Machine-Learning einen wesentlich schlankeren Ansatz zur Bewältigung der
hohen Flexibilitätsansprüche an NLU-Systeme und der Computer kommt der Mensch-Mensch-
Kommunikation näher. Sprache ist im stetigen Wandel und so reicht es nicht, wenn ein NLU-
System auf historisch festgelegten Regeln basiert.6 Durch Machine-Learning kann das System
aus aktuellen Datensätzen lernen und sich so selbstständig dem Status-Quo im Sprachgebrauch

1
vgl. Lee (2020), 158
2
vgl. Chang (2020), 16150
3
vgl. Hörner (2019), 8ff.
4
vgl. Polenz (2020), 184 ff
5
vgl. Buchkremer (2020), 32 ff.
6
vgl. Behnke et al. (2012), 358 ff.

anpassen. Unter anderem dadurch ist die Nutzerfreundlichkeit bei der Bedienung von
sprachgesteuerten Geräten im letzten Jahrzehnt gestiegen.1

Je stärker sich die Technik dem Verhalten des Nutzers anpasst, desto natürlicher kann dieser
mit der Technik kommunizieren. Dies birgt Vorteile für den Nutzer, da sich der Umgang mit
einem Gerät dadurch komfortabler gestaltet und auch weniger Grundkenntnisse benötigt
werden, je intuitiver die Bedienung ist.2 Aber vor allem auch Hersteller und Unternehmen im
Wirkungsspektrum können sich diese Vertrautheit im Umgang mit Sprachassistenten zunutze
machen, da der Anwender aufnahmebereiter für Botschaften ist, je natürlicher er mit dem Gerät
umgeht und je reibungsloser dieses in dessen Alltag eingebettet werden kann. Wird der
Sprachassistent im Alltag gebraucht, lassen sich daraus zusätzlich Daten ableiten, die für die
strategische Planung eines Unternehmens wertvoll sein können.3

2.3.2.2. Natural Language Generation

Nachdem der Intent des Sprachbefehls mittels NLU verstanden und die Anweisung des Nutzers
ausgeführt worden ist, liegt es am Dialog Manager (DM), eine Antwort zu geben. Dieser
umfasst die gesamte Logik zur Erzeugung und Ausgabe von natürlicher Sprache. Die
Kerntechnologie des DM ist NLG. Hierbei wird aus einer Datenquelle natürliche Sprache in
textueller (z.B. Chatbot) oder verbaler (z.B. Sprachassistent) Form erzeugt. In einem weiteren
Schritt im Arbeitsprozess des DM wird diese ausgegeben.4 Die zugrundeliegende Datenquelle
bezieht sich bei Verarbeitungsprozessen durch Sprachassistenten auf den zuvor vom NLU-
System erzeugten Intent. Dieser Intent kann als Absicht des Anwenders verstanden werden,
eine gewisse Information zu erhalten (Abfahrtszeiten des öffentlichen Nahverkehrs) oder
Aktion auszuführen (Licht einzuschalten im Smart-Home-Bereich oder die Reservierung eines
Tisches in der Gastronomie5).6

Im Rahmen des Verarbeitungsprozesses durch NLU wird diese Absicht aus einer Textdatei
abgeleitet und in eine externe Verarbeitungslogik ausgelagert. Dieser ausgelagerte
Verarbeitungsprozess könnte innerhalb der Logik einer Voice-App durchgeführt werden. Voice-

1
vgl. Lee (2020), 176 und Dwivedi (2019) 4
2
vgl. Hörner (2019), 4
3
vgl. Heupel et al. (2020), 180 ff.
4
vgl. Dale et al. (2000), 23 und Semaan (2012), 50
5
Exkurs: 2017 präsentiert Sundar Pichai bei der Entwicklerkonferenz Google I/O die KI Google Duplex, die durch
Sprechpausen und Nebengeräusche bei der Sprachausgabe mit der telefonischen Reservierung in einem
Restaurant, natürlicher Sprache nahekommt. (siehe: https://www.youtube.com/watch?v=vWLcyFtni6U)
6
vgl. Semaan (2012), 51ff. und Hörner 12

Apps sind eigenständige Programme mit Application Programming Interfaces (API) zur
übergeordneten Programmlogik des Sprachassistenten. Sie können auf externe Datenquellen
zugreifen und sind vergleichbar mit Apps auf Smartphones.1

Die Erzeugung und Ausgabe von natürlicher Sprache basiert auf unterschiedlichen Modellen
der Computer-Linguistik und umfasste vor der Nutzung von Machine-Learning-Ansätzen eine
Abfolge von Schritten - die Inhaltsbestimmung des Ausgabetextes, Strukturierung der Teile des
Ausgabetextes, Kumulierung von ähnlichen Inhalten, Auswahl von verweisenden Termen und
die Erstellung eines Textes unter Berücksichtigung der Regeln des Syntax, der Morphologie
und Orthographie.2 Durch Machine-Learning mussten keine vordefinierten Schritte im Prozess
mehr abgearbeitet werden. Vereinfacht ausgedrückt erstellt der Machine-Learning-
Algorithmus auf Basis großer Datenmengen sein eigenes Set aus Regeln und entscheidet
anhand derer über den Inhalt des Ausgabetexts. Diese Machine-Learning-Methoden sind
allerdings insbesondere bei hoher Komplexität der Datenstruktur weitestgehend Black-Box-
Modelle - somit liegt die dahinterstehende Logik im Verborgenen.3

2.4. Online-Funktionalität von Sprachassistenten

Ein zentraler Unterschied zwischen den in Kapitel 2.1 vorgestellten HMI aus den Anfängen des
Computerzeitalters und der Methode der Sprachsteuerung liegt in der benötigten
Rechenleistung zur Verarbeitung von Steuerungsbefehlen. Zur Verarbeitung eines Mausklicks
oder des Tippens auf einem Touchscreen werden keine Rechenzentren im Back-End benötigt.
Das Gerät, auf dem der Befehl eingeht, bewältigt die Verarbeitung selbst.4 Im Hintergrund muss
nicht die Bedeutung der Eingabe interpretiert werden, da das Tippen oder Klicken auf eine
Schaltfläche, unabhängig davon, ob es sich um eine App auf einem Smartphone oder eine
Anwendung am Desktop eines PCs handelt, eine für Computer eindeutige Anweisung ist -
nämlich das Ausführen ebendieser Funktion, die der Schaltfläche hinterlegt ist. Der Computer
hat in diesem Fall keinen Spielraum für eine Interpretation.5

Sprachsteuerung benötigt ebendiese Interpretation von Eingaben (Sprachbefehlen). So muss
das NLU-System in diesem Rahmen entscheiden, welche Funktion auszuführen ist. Dieser
Verarbeitungsschritt geschieht auf Basis großer Datenmengen, deren Verarbeitung nach ebenso

1
vgl. Lenz-Kesekamp et al. (2018), 19 ff.
2
vgl. Dale et al. (2000), 50 ff.
3
vgl. Castelvecchi (2016), 21 und Gatt et al. (2018), 97
4
vgl. Hüning (2019), 14
5
vgl. Bauer et al. (2015), 141

großer Rechenleistung verlangt. Aus diesem Grund wird die Funktionsweise der
Sprachassistenten von Amazon, Apple und Google in eine Online- und Offlinefunktionalität
unterteilt. Die Hauptfunktion im Offlinemodus des Sprachassistenten ist es, zuzuhören und
Audiosignale, die das Mikrofon aufnimmt, nach dem Aktivierungswort zu filtern. 1 Falls das
Aktivierungswort nicht erkannt wurde, geben Google, Amazon und Apple an, dass
aufgezeichnete Inhalte nicht weiterverarbeitet, sondern nach kurzer Zeit vom Gerät gelöscht
werden. So wird nach Angabe der Hersteller sichergestellt, dass nur Inhalte, die für den
Sprachassistenten bestimmt sind, in die Onlineverarbeitung einfließen. Sobald der
Sprachassistent jedoch das Aktivierungswort erkennt, stellt er eine Verbindung zu den externen
Servern her. Auf diesen Servern ist die eigentliche Logik abgebildet und erst hier kommt es zur
Interpretation des Sprachbefehls.2

Zwei Vorteile, die sich daraus ergeben, dass sich der Großteil der Software nicht auf dem
Endgerät befindet, sind das Wegfallen von datenintensiven Updates und die Möglichkeit, große
Datenmengen in nahezu Echtzeit zu analysieren und aktuelle Ergebnisse in das
Entscheidungsmodell des Sprachassistenten einfließen zu lassen. Insbesondere der zweite
Aspekt wirkt sich stark auf den Kundennutzen aus.3 Die Genauigkeit im Verstehen der Absicht
des Nutzers ist von der Möglichkeit zur Verarbeitung großer Datenmengen abhängig. Je
genauer diese Absicht verstanden werden kann, desto präziser kann schlussendlich auch die
Antwort bzw. Reaktion ausfallen. Bei Sprachassistenten sind insbesondere auch die
personenbezogenen Daten des Nutzers relevant, um das Spektrum an Assistenzdiensten
ausschöpfen zu können.4

An dieser Stelle wird wiederum das Beispiel aus Kapitel 2.3 zur Veranschaulichung
herangezogen. Der Sprachassistent konnte in diesem Fall nicht nur gezielt auf die Frage des
Nutzers eingehen, sondern auch noch alternative Entscheidungsmöglichkeiten offerieren. Diese
Alternativen basieren auf den Daten des Nutzers, auf die die Verarbeitungslogik im Hintergrund
zugreifen kann. Die verfügbaren Daten werden unter anderem durch die Synchronisation des
Sprachassistenten mit anderen Konten erweitert.5 Je breiter die Zugriffsberechtigung des
Sprachassistenten auf persönliche Daten ist, desto vielfältiger kann dieser auch assistieren.
Diese Zugriffsberechtigungen beziehen sich auf Konten, die für die Nutzung gewisser

1
vgl. Deloitte et al. (2018), 16 ff.
2
vgl. Hörner (2019), 25
3
vgl. Almeida (2017), 16
4
vgl. Orr et al. (2018), 73
5
vgl. Hörner (2019), 193

Anwendungen benötigt werden bzw. die Nutzung erleichtern. Mit einem Google-Konto können
zum Beispiel unterschiedlichste Google-Dienste personalisiert genutzt werden. Bei vielen
Anwendungen und Online-Diensten, die nicht von Google stammen, ist mittlerweile sogar
keine Registrierung beim eigentlichen Anbieter notwendig, wenn sich der Nutzer mit einem
Google-Konto anmeldet.1 Es werden aber nicht nur Daten von Online-Diensten verwendet. So
ist der Zugriff auf den Ortungsdienst auch gängig.2

2.5. Betriebssysteme und Voice-Apps

Bevor ein Sprachassistent auf die Frage „Wie komme ich von hier am schnellsten mit dem Zug
nach Hause?“, die nächste Zugverbindung von Graz nach Wien suchen kann, benötigt er für
Probleme, die er mit seinen eigenen Grundfunktionen nicht direkt lösen kann, entweder eine
Schnittstelle zu einer Datenquelle, aus der er die Lösung erschließen kann, oder die
Möglichkeit, auf ein Subsystem zuzugreifen, das seine eigene Verarbeitungslogik und
Datenquellen zur Bearbeitung hat. Solche Subsysteme sind grundsätzlich nicht neu. Im Bereich
von Desktop-PCs sind sie als Programme bei Smartphones und Tablets als Apps bekannt. Sie
ergänzen die Betriebssysteme, welche die funktionale Basis darstellen, in ihrer Funktionalität
und stellen die Value Proposition dar.3

Wie groß wäre der Nutzen eines Laptops ohne die Office-Anwendungen Word, Outlook, Excel,
PowerPoint oder Vergleichbares? Was wäre unser Smartphone ohne Instagram, Strava oder
Spotify? Diese Programme und Apps ergänzen das Betriebssystem auf einer Ebene, die
Hersteller in dieser funktionalen Tiefe nicht bereitstellen könnten. Daher erzeugt schlussendlich
das Netzwerk aus dem Betriebssystem, Programmen und Apps den Kundennutzen.4

In Analogie zu Programmen und Smartphone- bzw. Tablet-Apps bieten einige Hersteller von
Sprachassistenten5 die Möglichkeit zur Implementierung von Voice-Apps in die Logik ihres
Betriebssystems an. Dieses stellt wiederum die funktionale Basis des gesamten
Sprachassistenz-Ökosystems dar.6 Es bietet die grundlegende computer-linguistische
Verarbeitungslogik von Anfragen als Rahmenwerk, in das Voice-Apps über Schnittstellen
integriert werden können. Das soll dazu führen, dass die Vielfalt an verfügbaren Funktionen

1
Anmerkung: zum Beispiel Facebook, Airbnb oder Booking.com
2
vgl. Kreutzer (2019), 138ff.
3
vgl. Lenz-Kesekamp et al. (2018), 6 ff.
4
vgl. Henseler (2012), 113 ff.
5
vgl. Anmerkung: Amazon und Google bieten die Integration von Voice-Apps an. Apple das lässt bislang noch
nicht zu. Siri kann allerdings auf IoS laufende Apps ansteuern.
6
vgl. Kreutzer (2019), 149

Sie können auch lesen