Die Auswirkungen der Sprachassistenzsysteme von Amazon, Google und Apple auf den Onlinehandel in Europa Masterarbeit
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Jakob Nimmerfall Die Auswirkungen der Sprachassistenzsysteme von Amazon, Google und Apple auf den Onlinehandel in Europa Masterarbeit zur Erlangung des akademischen Grades eines Master of Science der Studienrichtung Betriebswirtschaft an der Karl-Franzens-Universität Graz Betreuer: Ao.Univ.-Prof. Mag. Dr.rer.soc.oec.Otto Petrovic Institut: Institut für Operations und Information Systems Graz, März 2021
Inhaltsverzeichnis 1. Einleitung........................................................................................................................................ 1 2. Hintergründe von Sprachassistenten............................................................................................... 5 2.1. Entwicklungen der Mensch-Maschine-Schnittstellen ............................................................. 5 2.1.1. Informationseingabe mittels Lochkarten ......................................................................... 7 2.1.2. Tastaturen, Monitore und Computermäuse ..................................................................... 7 2.1.3. Gestensteuerung über Touchscreens ............................................................................... 8 2.1.4. Ortsunabhängigkeit durch Sprachbefehle........................................................................ 9 2.2. Abgrenzung zwischen Sprachassistenz und Sprachsteuerung............................................... 11 2.3. Hardware- und Softwarebestandteile von Sprachassistenten ................................................ 12 2.3.1. Automated Speech Recognition .................................................................................... 14 2.3.2. Natural Language Processing ........................................................................................ 15 2.3.2.1. Natural Language Understanding .............................................................................. 16 2.3.2.2. Natural Language Generation.................................................................................... 17 2.4. Online-Funktionalität von Sprachassistenten ........................................................................ 18 2.5. Betriebssysteme und Voice-Apps .......................................................................................... 20 3. Ausgangslage der Szenarioanalyse ............................................................................................... 23 3.1. Sprachassistenten von Amazon, Google und Apple ............................................................... 23 3.2. Entwicklungen in der Welt des Digitalen .............................................................................. 25 3.2.1. Einfluss der Welt des Digitalen auf den europäischen Einzelhandel ............................ 26 3.2.1.1. Amazons Einfluss auf den europäischen Onlinehandel ............................................. 28 3.2.1.2. Googles Einfluss auf den europäischen Onlinehandel .............................................. 29 3.2.1.3. Apples Einfluss auf den europäischen Onlinehandel ................................................. 30 3.2.2. Sprachassistenten im europäischen Onlinehandel ......................................................... 32 4. Entwicklung der Extremszenarien ................................................................................................ 35 4.1. Kurzdarstellung der angewandten Methodik......................................................................... 35 4.1.1. Bestimmung der Treiber des sprachgesteuerten Onlinehandels in Europa ................... 38 4.1.2. Beurteilung der Treiber nach Unsicherheit und Einfluss .............................................. 40 4.1.3. Identifikation von Interdependenzen unter den Treibern .............................................. 42
4.1.4. Bündelung der Treiber und Verdichtung zu kritischen Unsicherheiten ........................ 43 4.2. Definition der vier Extremszenarien ..................................................................................... 44 4.2.1. Übersicht der Szenarien................................................................................................. 45 4.2.2. Szenario A: Hohe Integration und Kooperation ............................................................ 46 4.2.3. Szenario B: Niedrige Kooperation und hohe Integration .............................................. 47 4.2.4. Szenario C: Niedrige Integration und Kooperation ....................................................... 48 4.2.5. Szenario D: Hohe Kooperation und niedrige Integration .............................................. 49 4.3. Sprachgesteuerte Kaufprozesse in den Szenarien ................................................................. 50 4.3.1. Sprachgesteuerte Kaufprozesse in Szenario A .............................................................. 51 4.3.2. Sprachgesteuerte Kaufprozesse in Szenario B .............................................................. 52 4.3.3. Sprachgesteuerte Kaufprozesse in Szenario C .............................................................. 53 4.3.4. Sprachgesteuerte Kaufprozesse in Szenario D .............................................................. 54 4.4. Funktionen von Sprachassistenten entlang der Customer Journey ....................................... 55 5. Zusammenfassung ........................................................................................................................ 57 Quellenverzeichnis ................................................................................................................................ 61 Anhang .................................................................................................................................................. 76
Abkürzungsverzeichnis API Application Programming Interface ASR Automated Speech Recognition CEO Chief Executive Officer DM Dialog Manager HMI Human Machine Interface KI Künstliche Intelligenz NLG Natural Language Generation NLP Natural Language Processing NLU Natural Language Understanding
Abbildungsverzeichnis Abb.1: Fachliteratur KI und NLP (Textanalysen und Lernen) nach Forschungsgebieten (Stand 17.09.2019) ................................................................................................................................. 2 Abb.2: Entwicklung der Mensch-Maschine-Schnittstelle in Bezug auf Computer ................................. 6 Abb.3: Übersicht der Software-Komponenten von Alexa..................................................................... 13 Abb.4: Umsatztrends von Apple nach den operativen Segmenten von 2012-2020 .............................. 31 Abb.5: Globaler Smartphone-Absatz zum Endkunden 2007-2021 ....................................................... 31 Abb.6: Absatz von Smart-Speakern in Europa in Mio. – Trend bis 2025 ............................................. 33 Abb.7: Der Szenario-Trichter und die Grundtypen des Szenarios ........................................................ 35 Abb.8: Angepasster Szenario-Trichter .................................................................................................. 36
1. Einleitung Das frühe 21. Jahrhundert wurde durch die Entwicklung des Touchscreens geprägt. Die Gestensteuerung stellte eine tiefgreifende Veränderung in der Art, wie Menschen mit Menschen und Menschen mit Maschinen interagieren, dar. Zudem haben Smartphones in Kombination mit der Vernetzung durch das Internet unser Einkaufsverhalten massiv beeinflusst.1 Aber auch abseits der Smartphones hat sich die Gestensteuerung über Touchscreens zu einem Standard entwickelt (Informations- und Bestellterminals, Board-Computer in Autos, Smart-Watches). Die nächste Revolution bei der Steuerung von elektronischen Geräten und Maschinen steht uns allerdings schon bevor.2 Sprachsteuerungssysteme werden sich insbesondere dort, wo Gestensteuerung aufgrund ihrer Orts- bzw. Hardwaregebundenheit keinen Vorteil ergibt, etablieren. Das Navigationssystem im Auto über einen Touchscreen während der Fahrt zu bedienen, erweist sich im Vergleich zur Steuerung über Sprachbefehle als unpraktisch. Ebenso ist es im Haushalt, beim Ein- und Ausschalten des Lichts. Warum aufstehen, wenn der Lichtschalter auch vom Sofa aus gesteuert werden kann? Das Kernelement eines solchen Sprachsteuerungssystems ist dabei die Software, die die Logik der Anfragebearbeitung beinhaltet. Als Hardware-Komponenten werden im weiteren Sinne lediglich ein Lautsprecher und Mikrofon benötigt. Bei der Entwicklung von Software im Bereich der Sprachsteuerung haben sich in den vergangenen Jahren unter anderem drei Namen hervorgetan. Amazons Alexa, Google Assistant und Siri von Apple spielen heute eine federführende Rolle bei der Etablierung von Sprachsteuerungssystemen und Sprachassistenten in Europa und führen den Markt an.3 In Europa werden Sprachassistenten noch vermehrt zur Abfrage von Informationen und Steuerung genutzt („Hey Siri, wie wird das Wetter heute?“ oder „Alexa, schalte das Licht im Wohnzimmer ein!“).4 Die Zukunft liegt aber in einer erweiterten Interaktion5 und Sprachassistenten werden von reinen Informationslieferanten zu Interaktionspartnern, die ein intelligentes Feedback auf Fragen geben können und im Alltag assistieren.6 Amazons Alexa hat es bereits heute in den USA geschafft, sprachgesteuerten Einkauf massentauglich zu machen 1 vgl. Hörner (2019), 2 und Vogelsang (2018), 5 2 vgl. Kreutzer et al. (2019), 129 ff. 3 vgl. Brill et al. (2019), 1415 ff. 4 vgl. Lenz-Kesekamp (2018), 3 5 vgl. Bosthow-Thies (2020), 519 6 vgl. Deloitte et al. (2018), 12 ff. 1
und auch akzeptiert zu werden.1 In Zukunft könnten Sprachassistenten auch Einfluss auf den europäischen Onlinehandel haben. So postulieren Deloitte et al. im Jahr 2018 erschienenen Bericht "Beyond Touch - Voice-Commerce 2030“, dass Amazon, Google und Apple2 treibende Kräfte hinter einer disruptiven Veränderung im Onlinehandel werden könnten, die vor allem durch den Einsatz von Sprachassistenten bedingt sei.3 Sprachassistenten werden in der Forschung vorrangig unter dem Schirm der Bereiche Künstliche Intelligenz (KI) und Natural Language Processing (NLP) geführt und finden im Vergleich zur Anzahl an technischen Publikationen in der Forschung der Wirtschaftswissenschaft nur geringe Beachtung. Buchkremer führte im September 2019 eine Untersuchung der wissenschaftlichen Fachpublikationen zu NLP und KI durch. Dabei analysierte er die Fachliteratur der Plattform Web of Science.4 Die genaue Angabe des Studiendesigns befindet sich im Anhang. Folgende Grafiken zeigen die Anzahl an Fachpublikationen nach Forschungsgebieten und Ländern. Abb.1: Fachliteratur KI und NLP (Textanalysen und Lernen) nach Forschungsgebieten (Stand 17.09.2019) Quelle: Buchkremer (2020), 37ff. 1 vgl. Hörner (2019), 1 ff. 2 Anmerkung: Im Rahmen dieser Arbeit werden Amazon.com, Inc., Alphabet, Inc. und Apple Inc. aufgrund der allgemein höheren Bekanntheit der Markennamen fortan als Amazon, Google und Apple angeführt. 3 vgl. Jongen et al. (2019), 32 und Deloitte et al. (2018), 28 ff. 4 vgl. Buchkremer (2020), 37 ff. 2
Dementsprechend sind 2,48 % Prozent der Fachpublikationen den Forschungsgebieten Business Economics (1,27 %) und Operations Research and Management Science (1,21 %) zuzuschreiben, wobei 5,2 % der gesamten Fachpublikationen dem deutschsprachigen Raum entspringen. Den Disziplinen KI und NLP wird im deutschsprachigen Raum generell eine hohe Bedeutung in der publizierenden Forschung im Vergleich zum internationalen Durchschnitt1 zugewiesen. Die Wirtschaftswissenschaft mischt jedoch nur in geringfügigem Maße mit, obwohl KI und NLP disruptives Potential für den Onlinehandel aus der Wirtschaft zugesprochen wird.2 Die Kerntechnologien von Sprachassistenten Automated Speech Recognition (ASR), Natural Language Understanding (NLU) und Natural Language Generation (NLG) werden in der Forschung vor allem in einem computer-linguistischen Kontext beleuchtet.3 Grundlegende Beschreibungen dieser Technologien und der allgemeinen Funktionsweise von Sprachassistenten mit umfangreichen Schilderungen ihrer wirtschaftlichen Relevanz, insbesondere für die Zielgruppe der Wirtschaftsinformatiker, konnten nicht gefunden werden.4 Wobei das übergeordnete Thema KI, welches vor allem in seiner Anwendung für die Wirtschaftsinformatik von Bedeutung ist, sowohl in der naturwissenschaftlichen als auch geisteswissenschaftlichen Forschung intensiv diskutiert wird.5 Google CEO Sundar Pichai – „Künstliche Intelligenz ist eines der wichtigsten Dinge, an denen Menschen arbeiten. Ihre Bedeutung ist grundlegender als Elektrizität oder das Feuer.“6 Microsoft CEO Satya Nadella – „Künstliche Intelligenz ist nicht einfach nur eine weitere Technologie, es könnte eine der wirklich grundlegenden Technologien sein, die Menschen jemals entwickelt haben.“7 Der zukünftige Einfluss, den Sprachassistenten auf den Onlinehandel haben werden, wird derzeit marginal behandelt. Das Thema wird in Trend-Berichten und unwissenschaftlichen Publikation von Handelsverbänden und Marktakteuren des Handels oder handelsnaher Branchen aufgegriffen, spielt aber in wissenschaftlicher Literatur zu KI oder dem Onlinehandel 1 vgl. Buchkremer (2020), 38 ff. 2 vgl. Hörner (2019), 2 und Deloitte et al. (2018), 1 und Lenz-Kesekamp (2016), 2 und Wittpahl (2018), 1 und Jongen (2019), 32 ff. 3 vgl. Buchkremer (2020), 39 4 vgl. Deloitte et al. (2018), 32 5 vgl. Jandt (2020), 120 und Gola (2019), 570ff. und Rieß (2020), 498ff. und Fischer (2018), 78 6 Pichai (2018) zitiert nach Thielicke (2018), 5 7 Nadella (2018) zitiert nach Thielicke (2018), 5 3
eine nebensächliche Rolle.1 Der Einfluss, den Baidu und Alibaba auf die Entwicklung von Sprachassistenten im asiatischen Raum haben, soll nicht behandelt werden, da dieserorts Wandel im Allgemeinen einer anderen Dynamik folgt und eine Untersuchung der Auswirkungen auf dieses Gebiet das Ausmaß der Arbeit übersteigen würde.2 Aus zweiterem Grund wird ebenso davon abgesehen den Einfluss von Amazon, Google und Apple außerhalb Europas zu behandeln. 1 vgl. Wittpahl (2018), VII und KPMG (2016), 17 und Buchkremer (2020), 36 ff. 2 vgl. Hon-fun Poon et al. (2010), 596 4
2. Hintergründe von Sprachassistenten Im ersten, eklektischen Teil dieser Arbeit werden die bislang wenig beschriebenen1 Funktionalitäten und funktionalen Abhängigkeiten von Sprachassistenten mit besonderem Bezug auf die Kerntechnologien der Software für Nicht-Techniker verständlich erklärt. Besondere Aufmerksamkeit gilt dabei den Fragen, wie sich die Entwicklung von Mensch- Maschine-Schnittstellen auf die Computernutzung ausgewirkt hat und wie die Kerntechnologien von Sprachassistenten auf ebendieses Nutzungsverhalten Einfluss nehmen können. 2.1. Entwicklungen der Mensch-Maschine-Schnittstellen Die Steuerung von Maschinen durch verbale Befehle stellt die Spitze einer Entwicklung dar, die die Menschheit seit der Antike vorantreibt. Angefangen mit den babylonischen Schöpfwerken, die händisch über eine Kurbel betrieben Wasser an die Oberfläche befördern konnten, bis hin zum letzten großen Entwicklungssprung Ende des 20. Jahrhunderts – der Gestensteuerung von mobilen Computern über einen Touchscreen.2 In der Antike handelte es sich um mechanische Funktionen, die zumeist durch körperliche Kraftbetätigung initiiert wurden. Durch die Erfindung der Dampfkraftmaschine zu Zeiten der industriellen Revolution musste dies nicht mehr von Hand geschehen. Hebel, Knöpfe und Schalter traten in den Mittelpunkt der Frage um eine nutzerfreundliche Schnittstelle zwischen Mensch und Maschine.3 Im Jahr 1941 stellte Zuse den Z3, einen Vorgänger heutiger Computer fertig und ebnete einer disruptiven Entwicklung, die Jahrzehnte später als digitale Revolution bekannt werden würde, den Weg. Die zunehmend ins Interesse der Technologie rückenden Computer schufen auch eine neue Perspektive auf die Thematik der Mensch-Maschine- Schnittstellen (Human-Machine-Interfaces – HMI) – wobei der Begriff Maschine in diesem Kontext auch immer stärker mit Geräten, Automaten, Apparaturen, Anlagen und Werkzeugen assoziiert wurde4. Und wiederum stellte sich in den Reihen der Entwickler die Frage, wie diese neuen Gerätschaften nutzerfreundlich gesteuert werden konnten.5 1 vgl. Buchkremer (2020), 36 ff. 2 vgl. Burckhardt (1999), 45 ff. 3 vgl. Strandh (1980), 72 ff. 4 Anmerkung: In Folge wird der Begriff Gerät stellvertretend verwendet. 5 vgl. Hörner (2019), 2 5
Im Hinblick auf Computer waren es nun nicht mehr mechanische Funktionen, die mittels eines Hebels in Gang gesetzt wurden, sondern Anweisungen und Aufgaben, die dem Computer aufgetragen werden mussten, damit er diese bearbeiten kann. Zu Zeiten der babylonischen Schöpfwerke war die Effektivität der Kraftübertragung die wesentliche Anforderung an die Schnittstelle zwischen Mensch und Maschine. Die Funktionen, die ein Computer zu erfüllen hat, erfordern hingegen eine hohe Informationsbekanntgabe durch den Menschen.1 Mit steigender Automatisierung wandelte sich so die Anforderung an HMI von effektiver Kraftübertragung zu nutzerfreundlichem Informationsaustausch. Effektive Kraftübertragung ist im Maschinenbau zwar immer noch ein wichtiger Aspekt, jedoch ist der Mensch in der Regel nicht mehr der Antrieb der Maschine, somit verlor diese auch an Relevanz für HMI. Durch die Entwicklung der Gestensteuerung über Touchscreens erreichte die Nutzerfreundlichkeit von Computern Ende des 20. Jahrhunderts ein neues Level – die Selbsterklärungsfähigkeit. Hörner schreibt, dass sogar Kinder, die zuvor keine Erklärung bekommen haben, ein Smartphone oder Tablet intuitiv bedienen können.2 In den Anfängen des Computerzeitalters waren es allerdings nicht die Rechner, die sich der menschlichen Kommunikation anpassten, sondern die Menschen, die lernen mussten, Befehle so zu erteilen, dass sie die Computer ausführen konnten. Die Komplexität in der Kommunikation mit Geräten nahm aufgrund des technologischen Fortschritts zunehmend ab (siehe Abb. 2) daher liegt der Fokus in der Forschung und Entwicklung von HMI heute auf einer möglichst hohen Übereinstimmung mit natürlicher Mensch-Mensch-Kommunikation.3 Abb.2: Entwicklung der Mensch-Maschine-Schnittstelle in Bezug auf Computer Quelle: Hörner (2019), 2 Um die Bedeutung der Selbsterklärungsfähigkeit bei der Steuerung von Geräten durch Sprachassistenten und die Art, wie sich menschliches Verhalten im Umgang mit diesen 1 vgl. Baumann et al. (1998), 12. 2 vgl. Hörner (2019), 3 ff. 3 vgl. Nievergelt (1983), 3 ff. 6
verändert hat, zu verstehen, wird im Anschluss genauer auf die einzelnen Entwicklungsschritte von HMI in Bezug auf Computer eingegangen. 2.1.1. Informationseingabe mittels Lochkarten Zur Erteilung von Anweisungen wurden den ersten Computern Informationen über Lochkarten vermittelt. In diese Papier- oder Kartonkarten waren Löcher gestanzt. Das Muster der Löcher repräsentierte die Anweisung und konnte von Rechenmaschinen (ehem.) gelesen werden. Es benötigte eine spezielle Ausbildung, um eine Anweisung in ein Lochmuster zu übersetzen und somit waren Computer für eine kleine Nutzergruppe limitiert.1 Auch war eine Verbreitung der Rechenmaschinen über diese Experten hinaus kaum möglich. Am Beispiel der Lochkarten ist zu erkennen, dass die Verbreitung der Computer von der Nutzbarkeit abhängt und dass diese unabhängig von den tatsächlichen Funktionen des Geräts durch die Nutzerfreundlichkeit der HMI limitiert werden kann. Smartphones hätten sich trotz aller praktischen Funktionen vermutlich nicht derartig weit verbreitet, wenn sie mit einer Tastatur und Computermaus gesteuert werden hätten müssen. Die Nutzbarkeit steht in dieser Analogie für das „Wer kann ein Gerät nutzen?“ und die Nutzerfreundlichkeit der HMI für das „Wie kann ein Gerät genutzt werden?“.2 2.1.2. Tastaturen, Monitore und Computermäuse Um die Nutzbarkeit und gleichzeitig die Verbreitung von Computern zu erhöhen, war die Entwicklung von Eingabegeräten, wie Tastaturen und Computermäusen, und Anzeigegeräten, wie Monitoren, ein wichtiger Schritt. Die Eingabe über eine Tastatur ähnelte der damals weit verbreiteten Schreibmaschine. Über die Eingabe bestimmter Zeichenfolgen oder Codewörter konnten Funktionen aufgerufen werden. Es benötigte nun keine spezielle Ausbildung mehr, sondern einer Einschulung. In diesem Fall erweiterte sich der potentielle Nutzerkreis von Fachexperten zu einer Allgemeinheit ohne spezielle Ausbildung. Durch Computermäuse wurde auch das Eintippen von Befehlen obsolet, da diese über das Anklicken einer Schaltfläche ausgeführt wurden. Die Nutzerfreundlichkeit der HMI stieg und damit verbunden auch die Popularität von Computern.3 An dieser Stelle ist zu ergänzen, dass sich neben der gestiegenen Nutzerfreundlichkeit der HMI die Entwicklung der ersten Microsoft-Betriebssysteme ebenso stark auf die Verbreitung von Computern ausgewirkt hat. Schlussendlich ist aber anzunehmen, 1 vgl. Bode (1968), 4 ff. 2 vgl. Hörner (2019), 3 3 vgl. Hörner (2019), 3 ff. 7
dass Computer ihre heutige Popularität nicht erreicht hätten, wenn diese zu Beginn des 21. Jahrhunderts noch mit Lochkarten gesteuert hätten werden müssen.1 2.1.3. Gestensteuerung über Touchscreens Die aufkommende Mobilisierung und Miniaturisierung von Elektrogeräten Ende des 20. Jahrhunderts forderte auch neue Konzepte für HMI. Der Touchscreen war nach Computermaus und Tastatur der nächste Evolutionsschritt von Steuerungssystemen.2 Bis hierher wurde der virtuelle Cursor auf einem Monitor mittels der Computermaus bewegt. Durch die Nutzung eines Touchscreens konnten Funktionen von nun an direkt am Bildschirm gestartet werden, da dieser Eingabegerät und Monitor zugleich ist. Das Ausführen einer Aktion über einen Touchscreen stellt somit eine natürlichere Interaktion mit dem Gerät dar. Der Touchscreen erscheint als Lupe auf einen ausgewählten Ausschnitt einer Karte mit mehreren Ebenen. Das Wischen, um den Ausschnitt zu bewegen und Tippen, um in eine tiefere Ebene zu wechseln, können aufgrund der Erfahrungen in der Nutzung von anderen Medien intuitiv ausgeführt werden. Das Wischen erinnert an das Umblättern einer Seite eines Buches. Das Tippen kann mit dem Klicken einer Computermaus oder anderen Druckschaltern- und Knöpfen verglichen werden.3 Der Touchscreen machte das Werkzeug Maus aber nicht obsolet, sondern ergänzte die HMI auf dem Anwendungsgebiet der Mobilgeräte. Die Computermaus gehört nach wie vor zur Standard-Hardware in Büroräumlichkeiten. Insbesondere wenn motorische Präzision im Tätigkeitsfeld verlangt wird, wie es etwa bei Grafik-Designern der Fall ist, übersteigen die Vorteile einer Computermaus jene des Touchscreens.4 Dies trifft auch außerhalb des traditionell professionellen Lebens zu. Im E-Sport sind Computermäuse und Joysticks nach wie vor Touchscreens überlegen.5 Touchscreens ermöglichen eine höhere und vor allem auch erweiterbare Auswahl an Befehlen. Neben dem Tippen, Wischen und Auseinanderziehen wurden im letzten Jahrzehnt viele weitere Gesten entwickelt, die aus unterschiedlichen Tipp-, Wisch-, und Rotationsbewegungen durch einen oder mehrere Finger bestehen.6 Ebendiese Vielfalt an intuitiven gestischen Befehlsmöglichkeiten und die Ortsunabhängigkeit von Smartphones, in welchen Touchscreens 1 vgl. Eller (2012), 21 ff. 2 vgl. Becker et al. (2008), 38 ff. 3 vgl. Baumann et al. (1998), 14 ff. 4 vgl. Burnett et al. (2016), 163 5 vgl. Scholz (2019), 19 ff. 6 vgl. Heejin et al. (2017), 1534 8
eine zentrale Anwendung finden, führten zu hoher Beliebtheit dieser Geräte. Die Gruppe, die Computer nutzen konnte, wuchs wiederum weiter. An dieser Stelle ist zu erwähnen, dass, analog zur Rolle, die Microsoft bei der Verbreitung der Personal-Computer gespielt hatte, Apple und Nokia mit der Entwicklung der ersten Smartphones einen wesentlichen Beitrag zur Verbreitung des Touchscreens leisteten. Würde es sich beim iPhone um ein reines Tastengerät handeln, hätte Apple es mit Sicherheit nicht annähernd so erfolgreich vertreiben können.1 2.1.4. Ortsunabhängigkeit durch Sprachbefehle Der Schritt von nicht intuitiv bedienbaren Lochkarten hin zur Eingabe durch kabelgebundene Computermäuse und Tastaturen hat die Nutzungsmöglichkeiten von Computern einer größeren Personengruppe eröffnet. Es folgten die ersten Betriebssysteme von Microsoft auf Personal- Computern. Die erhöhte Nutzerfreundlichkeit durch HMI und die vielfältigen Anwendungsmöglichkeiten führten zu einer stärkeren Verbreitung der Computer. Im Jahr 2007 veröffentlichte Apple das erste iPhone. Ein Mobiltelefon, das sich neben einigen Tasten mit geringer Funktionalität hauptsächlich über einen Touchscreen steuern ließ. Auch dieser Entwicklungsschritt führte zu einer erleichterten und vor allem intuitiveren Steuerung der Geräte.2 Die übliche Handy-Tastatur wurde nun nicht mehr benötigt, da die Bedienung direkt über den Bildschirm vorgenommen werden konnte. Die Bildschirme der Mobiltelefone und somit die Mobiltelefone selbst wurden zunehmend größer und konnten im Zusammenspiel mit der selbsterklärenden Steuerung und dem Aufkommen des Internets in neuen Anwendungsfeldern eingesetzt werden. Das Lesen eines Artikels oder Schauen eines Videos, das zuvor auf einem Tastentelefon unüblich war, wurde durch eine höhere Bildschirmgröße- und Auflösung praktikabel. Das Nutzungsverhalten im Bereich der Mobiltelefone passte sich den neuen Möglichkeiten an. Das Smartphone ersetzte den Personal-Computer zwar nicht, ergänzte jedoch die Anwendungsgebiete von Computern im Allgemeinen und wurde so zu einem alltäglichen Begleiter von mehr als 3 Milliarden Menschen.3 Der Schritt zur berührungsfreien Steuerung stellt wie die zuvor beschriebenen Entwicklungen ebenfalls eine umfassende Veränderung in der Bedienung von Geräten dar. Vergleichbar mit den letzten Entwicklungsschritten zu Computermäusen, Tastaturen und Touchscreens kommt es durch die neue Technologie in manchen Anwendungsgebieten zu einer Erhöhung der 1 vgl. Hörner (2019), 4 ff. 2 vgl. Bode (1968), 4 und Scholz (2019), 20 3 vgl. Newzoo (2019), 13 9
Nutzerfreundlichkeit. Die Verbesserung in der Art, wie ein Gerät gesteuert werden kann, eröffnet wiederum neuen Nutzergruppen den Zugang zur Technologie und führt zu einer stärkeren Verbreitung. Hier sind insbesondere jene Anwendungssituationen gemeint, in denen eine händische Bedienung nicht oder erschwert möglich ist, wie zum Beispiel beim Autofahren. Abseits davon bietet Sprachsteuerung einen möglichen Zugang zur Nutzung von zuvor gestengesteuerten Geräten für Personen mit motorischer Beeinträchtigung.1 Ebenso könnte sich Sprachsteuerung dort etablieren, wo eine berührungsfreie Bedienung eines Geräts wesentlich komfortabler ist und der Nutzer aufgrund seiner Umwelt auch bereit wäre, Sprachbefehle zu erteilen, etwa zu Hause zum Ein- und Ausschalten einer Lampe.2 Die berührungsfreie Steuerung über Sprachbefehle ist im Vergleich zu Touchscreens stärker von der Hardware gelöst, da dem Gerät Anweisungen nicht mehr über den direkten Kontakt, sondern über eine räumliche Distanz gegeben werden. Die Entschlüsselung dieser Anweisungen ist vergleichsweise komplex.3 Die aktuell weitestverbreitete Art des Touchscreens, der kapazitive Touchscreen, misst mittels Sensoren die Ladung eines elektrostatischen Feldes, das bei Berührung zwischen dem Finger und einer dünnen leitenden Schicht entsteht. Der Befehl des Nutzers wird schnell in ein elektrisches Signal transformiert.4 Vereinfacht dargestellt werden bei einem Touchscreen die elektrischen Signale der Sensoren in Nullen und Einsen umgewandelt, diese können eindeutig gelesen und ausgeführt werden. Sprachassistenten erhalten als ersten Schritt des Eingabeprozesses einen Sprachbefehl. Bevor dieser in ein Digitalsignal transformiert und somit in eine für Computer leicht verständliche Anweisung übersetzt werden kann, muss der Sprachassistent überhaupt erst die Bedeutung der Anweisung verstehen. Erst nach der Interpretation des Audio-Signals können daraus eindeutige Befehle abgeleitet werden. Diese Interpretation bedarf mehr Rechenleistung als die Hardware eines Sprachassistenten aufbringen kann, daher werden die Signale vom Sprachassistenten an externe Rechenzentren weitergeben (Cloud-Computing nach Mouftah5 oder Hammons et al.6). Die eigentliche Verarbeitung der Sprachbefehle, die Kerntätigkeit des Sprachassistenten, geschieht dementsprechend nicht am Smartphone oder Smart-Speaker, sondern in der Cloud. Der Sprachassistent sollte demnach nicht auf das Gerät reduziert werden, auf dem er 1 vgl. Alvarez et al. (2012), 315 ff. 2 vgl. Hörner (2019), 5ff. und Buvat et al. (2018), 17 3 vgl. Gaub (2018), 105 ff. 4 vgl. Phares (2011), 1469 5 vgl. Mouftah, H. (2013), 140 ff. 6 vgl. Bajracharya et al. (2019), 24 10
Anwendung findet, da er einen Großteil seiner Funktionalität von dezentralen Ressourcen bezieht. 2.2. Abgrenzung zwischen Sprachassistenz und Sprachsteuerung Lenz-Kesekamp1 oder Orr2 verstehen Sprachassistenten vor allem als Software, Blass3 verwendet den Begriff Sprachassistent synonym zu Smart-Speaker und nach Hörner4 oder Stummeyer5 sind Sprachassistenten eine Kombination aus zentralen und dezentralen Software- und Hardware-Ressourcen, die in Abhängigkeit ihrer Anwendung stets differenziert betrachtet werden sollen. Zusätzlich unterscheiden sich die Meinungen auch dahingehend, welche Funktionen erfüllt werden müssen, damit von einem Sprachassistenten und nicht von Sprachsteuerung gesprochen werden kann. Um ein einheitliches Verständnis zu schaffen, erklären die folgenden Kapitel Sprachassistenten tiefergehend.6 Durch den 2011 eingeführten Sprachassistenten Siri stellte Apple eines der ersten Systeme dieser Art einer großen Nutzergruppe zur Verfügung. Mit 93,1 Millionen verkauften iPhones im selben Jahr war Apple zu dieser Zeit nach Samsung der Smartphone-Anbieter mit dem höchsten jährlichen Absatz.7 2016 langten bereits über zwei Milliarden Anfragen pro Woche auf den Servern von Siri ein.8 In den Anfangsjahren war die Funktionalität von Siri noch nahe an einem reinen Sprachsteuerungssystem, neuere Versionen der Software wiesen hingegen das Potential für Assistenzfunktionen auf, dennoch wird Siri nach wie vor von den meisten iPhone- Besitzern nicht als das genutzt.9 Auf die Frage „Hey Siri, wie spät ist es?“ wird dem Nutzer die genaue Ortszeit genannt. Auf den Befehl „Hey Siri, spiele in Spotify meine Lieblingssongs!“ wird die Spotify-App geöffnet und die Playlist abgespielt. Der Unterschied zu Sprachassistenten ist, dass das Sprachsteuerungssystem lediglich Funktionen ausführt. Unabhängig davon, ob am heutigen Tag ein Termin im Kalender eingetragen ist, der in einer Stunde beginnt, wird Siri auf die Frage „Hey Siri, wie spät ist es?“ immer mit der aktuellen Ortszeit antworten, solange keine genaue Konfiguration der Assistenzfunktionen durchgeführt wurde. Mit der Notwendigkeit 1 vgl. Lenz-Kesekamp et al. (2018), 18 2 vgl. Orr et al. (2018), 72 3 vgl. Blass (2018), 42 4 vgl. Hörner (2019), 3 5 vgl. Stummeyer (2020), 23 6 vgl. Kreifeldt et al. (2012), 249 7 vgl. IDC nach Statista (2020), [online] 8 vgl. Apple (2016), [online] 9 vgl. Brill et al. (2019), 1403 ff. 11
dieser Konfiguration, die dem Nutzer Zeit abverlangt, könnte unter anderem begründet werden, warum die Sprachassistenzfunktionen wenig genutzt werden.1 Ein Sprachassistent würde auf die obige Frage die Ortszeit nennen und darauf hinweisen, dass in einer Stunde der Kalendereintrag „Geburtstagsfeier Oma“ beginnt. Er würde wissen, dass der Nutzer nicht mit dem Auto hinfährt, sondern die öffentlichen Verkehrsmittel nutzen wird und ihm daher die nächsten Verbindungen ansagen. Zusätzlich würde er darauf hinweisen, dass beim Wechsel zweier Buslinien eine Wartezeit von 10 Minuten entsteht und direkt neben der Haltestelle ein Blumenladen geöffnet hat.2 Der Sprachassistent ist im wahrsten Sinne des Wortes ein Assistent. Die Qualität der Assistenzleistungen lebt von Informationen, die er über das Verhalten des Nutzers hat. Durch Methoden der Datenanalyse, basierend auf Machine- Learning-Modellen, kann er Rückschlüsse auf andere Anwendungsfälle ziehen und dadurch nicht nur Anweisungen folgen, sondern mit seinem Nutzer inhaltlich erweitert interagieren.3 2.3. Hardware- und Softwarebestandteile von Sprachassistenten Um Anweisungen auszuführen, auf Fragen zu antworten oder Ratschläge zu geben, benötigen Sprachassistenten Software und Hardware. Die Software stellt das Gehirn des Systems dar.4 Sie basiert auf Ebene der Audiosignalverarbeitung auf Automated Speech Recognition (ASR) und auf Ebene der semantischen Sprachverarbeitung und -wiedergabe auf Natural Language Processing (NLP), welches auf zwei Kerntechnologien aufgeteilt werden kann: Natural Language Understanding (NLU) und Natural Language Generation (NLG).5 Einzelne Anbieter, beispielsweise Amazon (siehe Abb. 3), benennen Teilsysteme ihrer Sprachassistenten abweichend, jedoch unterscheidet sich das Funktionskonzept nur geringfügig, da die zugrundeliegenden Technologien übereinstimmen. 1 vgl. Kreifeldt et al. (2012), 256 ff. 2 vgl. Hörner (2019), 12 3 vgl. Kreutzer (2019), 147 ff. 4 vgl. Lenz-Kesekamp et al. (2018), 18 und Orr et al. (2018), 72 5 vgl. Hörner (2019), 11 ff. und Deloitte et al. (2018), 19 und Kreutzer (2019), 139 ff. 12
Abb.3: Übersicht der Software-Komponenten von Alexa Quelle: Deloitte et al. (2018), 16 Die Hardware fungiert als Ohren und Mund. Ein sprachsensibilisiertes Mikrofon hört dem Nutzer zu und gibt über einen Lautsprecher ein synchronisiertes, verbales Feedback. Software und Hardware stehen in funktionaler Wechselwirkung und haben Einfluss auf das Nutzungsverhalten.1Die Forschung schenkt der Software jedoch größere Aufmerksamkeit2, da die Weiterentwicklung der KI, die hinter der Software steht, maßgeblicheres Potential zur Einflussnahme auf den Kundennutzen und das Nutzungsverhalten hat, als es Lautsprecher und Mikrofon haben. Ebenso wird der Software zugesprochen, das Verhalten der Nutzer in Bezug auf Kauf- und Konsumentscheidungen stark beeinflussen zu können.3 Keine HMI hatte zuvor so großes Potential, in den Alltag des Nutzers einzugreifen.4 Zur Veranschaulichung wird das vorherige Beispiel unter Berücksichtigung eines Wechsels von der Kundensicht zur Sicht des Sprachassistenten erneut beschrieben. Der Nutzer stellt die Frage „Hey Siri, wie spät ist es?“. Nun gibt der Sprachassistent einerseits die Ortszeit wieder und macht den Nutzer zusätzlich darauf aufmerksam, dass in einer Stunde der Kalendereintrag „Geburtstagsfeier Oma“ beginnt. Im zuvor angeführten Beispiel schlägt er dem Nutzer aufgrund der Daten, die er von ihm besitzt, die schnellste Busverbindung und ein 1 vgl. Guerrero (2017), 242 2 vgl. Buchkremer (2020), 36 ff. 3 vgl. Hörner (2019), 190 4 vgl. Blass (2018), 43 13
Blumengeschäft zum Kauf eines Geburtstagsgeschenks während einer Wartezeit vor.1 Diese Empfehlung entspräche dem bisherigen Verhalten des Nutzers. Nun könnte der Sprachassistent auch vorschlagen, ein Taxi zu rufen und in der gewonnenen Zeit ungelesene E-Mails zu beantworten. Er könnte dem Nutzer auch eine Confiserie anstatt des Blumenladens empfehlen. Die Reaktionsmöglichkeiten des Sprachassistenten hängen einerseits von den Präferenzen und dem bisherigen Verhalten des Nutzers ab und sind somit indirekt nutzergesteuert, aber vor allem auch von der Logik zur Befehlsverarbeitung der Software. Die Software entscheidet darüber, welche Antwort der Nutzer bekommt und kann dahingehend tiefgreifend auf Entscheidungen des Nutzers Einfluss nehmen. Aufgrund der entscheidenden Bedeutung dieser Weiterentwicklung sollen die einzelnen Kerntechnologien der Software von Sprachassistenten anschließend genauer beschrieben und hinsichtlich ihres Potentials zur Einflussnahme auf das Nutzerverhalten analysiert werden.2 2.3.1. Automated Speech Recognition Bei automatischer Spracherkennung (ASR) wird das analoge Eingangssignals durch Abtastung in eine für den Computer verarbeitbare Bitfolge umgewandelt.3 In einem nächsten Schritt werden Hintergrundgeräusche ausgefiltert. Anschließend wird das Signal aus dem Zeitbereich in den Frequenzbereich transformiert. Über weitere Transformationen und Aufteilungen des Frequenzbereichs wird ein Merkmalsvektor erstellt. Dieser fasst numerische Charakteristika eines Musters in vektorieller Darstellung zusammen.4 Bei der Umwandlung des Merkmalsvektors in Textzeichen werden zwei Ansätze verfolgt, die Anwendung des Hidden- Markow-Modells und die Nutzung von Neural- Networks.5 Zweitere sind in den letzten Jahren aufgrund der Entwicklung von Deep-Machine-Learning-Modellen in den Vordergrund gerückt.6 Dabei ist der Ansatz der Deep-Neural-Networks entstanden. Vereinfacht ausgedrückt handelt es sich dabei um ein vielschichtiges Netz aus mathematischen Modellen und Regeln. In der untersten Schicht des Netzwerks befindet sich die Basis an grundlegenden Konzepten. In jeder Schicht darüber werden die einzelnen Regeln und Modelle miteinander kombiniert und nehmen an Komplexität zu. Der Computer sammelt bei der Lösung einer Aufgabe Erfahrungen über die Zusammensetzung des Lösungskonzepts und kann lernen, komplizierte Aufgaben zu 1 vgl. Brandl (2020), 21 ff. 2 vgl. Lee (2019), 72 ff. und Deloitte et al. (2018), 16 3 vgl. Benesty et al. (2008), 10. 4 vgl. Lawrence et al. (2008), 163 ff. 5 vgl. Chapman et al. (2011), 549 6 vgl. Huang et al. (2010), 2 ff. 14
bewältigen, indem er den Lösungsansatz aus einfacheren Modellen und Regeln basierend auf seinen Erfahrungen zusammensetzt.1 Bei ASR spielt die Bedeutung der Anweisungen insofern noch keine direkte Rolle, als primär auf eine möglichst hohe Übereinstimmung zwischen dem Merkmalsvektor und dem Sprachbefehl (Eingangssignal) abgezielt wird. Je höher die Translationsgenauigkeit zwischen dem analogen und finalen digitalen Signal ist, desto besser kann jedoch in einem nächsten Schritt die Bedeutung analysiert werden und dabei entsteht auch das Potential zur Einflussnahme auf den Nutzer. Somit steht die ASR-Technologie in der Kausalkette der Faktoren, die ein Sprachassistenzsystem Einfluss auf das Nutzerverhalten nehmen lassen, an erster Stelle, auch wenn sie nur indirekt darauf einwirkt.2 2.3.2. Natural Language Processing NLP befasst sich mit dem Verstehen von natürlicher Kommunikation durch Computer und stellt eine Kerntechnologie der Sprachassistenz-Software dar.3 Verstehen steht im engeren Sinne für die Erkennung der Muster im Sprachgebrauch.4 Dabei werden computerbasierte Translationsvorgänge auf den Ebenen Sprache-zu-Sprache (STS), Text-zu-Sprache (vice versa – TTS, STT) und Text-zu-Text (TTT) durchgeführt.5 Zu Beginn der NLP-Forschung vor 70 Jahren waren die Ansätze zur Verarbeitung von natürlicher Sprache symbolbasiert. Programme unterlagen einem festgelegten Regelwerk, welches der Computer zur Translation eines Textes heranzog. Diese Programme waren statisch und bildeten sinngemäß die stichtagsbezogene Fähigkeit ihres Programmierers wieder, da sie natürliche Sprache nur so gut verarbeiten konnten, wie es der zugrundeliegende Code zuließ. Die mangelnde Fokussierung des Sprachverständnisses (Morphologie, Semantik, i.a.) und die geringe Dynamik der Systeme ließ diese wenig nutzerfreundlich sein. Mit der statistischen Revolution Ende des 20. Jahrhunderts, der zunehmenden Leistungsstärke von Computern und dem wachsenden Bewusstsein für die Relevanz des Sprachverständnisses im Sinne von NLU stiegen auch die Anwendungsmöglichkeiten von NLP-basierten Programmen.6 1 vgl. Gatt et al. (2018), 97 2 vgl. Schukat-Talamazzini (1995), 45 und Hörner (2019), 15 ff. 3 vgl. Buchkremer (2020), 32 ff. 4 vgl. Dwivedi et al. (2019), 5ff. und Chapman et al. (2011), 544 5 vgl. Deloitte et al. (2018), 16 und Buchkremer (2020) 37 ff. 6 vgl. Ekbia (2010), 201 ff 15
2.3.2.1. Natural Language Understanding An dieser Stelle der Sprachverarbeitung steht insbesondere die Bedeutung der Sprache im Vordergrund. NLU, als Teilbereich von NLP, analysiert im Kontext der Verwendung von Sprachassistenten die zuvor durch ASR verschriftlichte Audiosequenz anhand von Mustererkennungsmethoden und filtert die Bedeutung und den Intent des Nutzers aus dem Text.1 Der Intent steht dabei für den Willen hinter einer Anweisung, die auszuführen ist.2 Zum ersten Mal ist bei der Interaktion über eine HMI Verstehen notwendig, da die wechselseitigen Aktionen und Reaktionen über die Verarbeitung einfacher elektronischer Signale hinausgehen. Bevor eine Anweisung ausgeführt werden kann, muss diese verstanden worden sein.3 Die Komplexität bei der Verarbeitung natürlicher Sprache liegt vor allem in der Variabilität dieser. Allein die deutsche Sprache unterscheidet sich in ihrer Verwendung im DACH-Raum stark. Nach Polenz gibt es in Deutschland Anfang des 21. Jahrhunderts 53 Dialekte. Jeder Dialekt unterscheidet sich demnach in der Semantik, Morphologie und teilweise auch Grammatik voneinander.4 Um flächendeckend ein NLP-System einzusetzen, das auch mit diversen Dialekten umgehen kann, benötigt es eine Vielzahl an Regeln, aber vor allem auch Daten, aus denen diese Regeln erschlossen werden können. Mit dem Internet wurde der Forschung und Entwicklung eine Datenquelle geliefert, die diesen Ansprüchen gerecht wird. Vor allem aber Deep-Machine-Learning-Ansätze haben bei der Verarbeitung im Bereich des NLU einen neuen Maßstab gesetzt, der mit der Variabilität von Sprache umgehen kann.5 Dialekte, Akzente, Slangs und Sprachmarotten sind für NLU-Systeme bewältigbar, sofern sie sich diese spezifischen Regeln und Veränderungen selbst aneignen können. Durch Deep- Machine-Learning können NLU-Systeme aus den Mustern der zugrundeliegenden Daten lernen und die gesammelten Erfahrungen auf neue Problemszenarien anwenden. Auch wenn sich Computer nicht von allein beibringen können, unterschiedliche Dialekte problemlos zu verstehen, schafft Machine-Learning einen wesentlich schlankeren Ansatz zur Bewältigung der hohen Flexibilitätsansprüche an NLU-Systeme und der Computer kommt der Mensch-Mensch- Kommunikation näher. Sprache ist im stetigen Wandel und so reicht es nicht, wenn ein NLU- System auf historisch festgelegten Regeln basiert.6 Durch Machine-Learning kann das System aus aktuellen Datensätzen lernen und sich so selbstständig dem Status-Quo im Sprachgebrauch 1 vgl. Lee (2020), 158 2 vgl. Chang (2020), 16150 3 vgl. Hörner (2019), 8ff. 4 vgl. Polenz (2020), 184 ff 5 vgl. Buchkremer (2020), 32 ff. 6 vgl. Behnke et al. (2012), 358 ff. 16
anpassen. Unter anderem dadurch ist die Nutzerfreundlichkeit bei der Bedienung von sprachgesteuerten Geräten im letzten Jahrzehnt gestiegen.1 Je stärker sich die Technik dem Verhalten des Nutzers anpasst, desto natürlicher kann dieser mit der Technik kommunizieren. Dies birgt Vorteile für den Nutzer, da sich der Umgang mit einem Gerät dadurch komfortabler gestaltet und auch weniger Grundkenntnisse benötigt werden, je intuitiver die Bedienung ist.2 Aber vor allem auch Hersteller und Unternehmen im Wirkungsspektrum können sich diese Vertrautheit im Umgang mit Sprachassistenten zunutze machen, da der Anwender aufnahmebereiter für Botschaften ist, je natürlicher er mit dem Gerät umgeht und je reibungsloser dieses in dessen Alltag eingebettet werden kann. Wird der Sprachassistent im Alltag gebraucht, lassen sich daraus zusätzlich Daten ableiten, die für die strategische Planung eines Unternehmens wertvoll sein können.3 2.3.2.2. Natural Language Generation Nachdem der Intent des Sprachbefehls mittels NLU verstanden und die Anweisung des Nutzers ausgeführt worden ist, liegt es am Dialog Manager (DM), eine Antwort zu geben. Dieser umfasst die gesamte Logik zur Erzeugung und Ausgabe von natürlicher Sprache. Die Kerntechnologie des DM ist NLG. Hierbei wird aus einer Datenquelle natürliche Sprache in textueller (z.B. Chatbot) oder verbaler (z.B. Sprachassistent) Form erzeugt. In einem weiteren Schritt im Arbeitsprozess des DM wird diese ausgegeben.4 Die zugrundeliegende Datenquelle bezieht sich bei Verarbeitungsprozessen durch Sprachassistenten auf den zuvor vom NLU- System erzeugten Intent. Dieser Intent kann als Absicht des Anwenders verstanden werden, eine gewisse Information zu erhalten (Abfahrtszeiten des öffentlichen Nahverkehrs) oder Aktion auszuführen (Licht einzuschalten im Smart-Home-Bereich oder die Reservierung eines Tisches in der Gastronomie5).6 Im Rahmen des Verarbeitungsprozesses durch NLU wird diese Absicht aus einer Textdatei abgeleitet und in eine externe Verarbeitungslogik ausgelagert. Dieser ausgelagerte Verarbeitungsprozess könnte innerhalb der Logik einer Voice-App durchgeführt werden. Voice- 1 vgl. Lee (2020), 176 und Dwivedi (2019) 4 2 vgl. Hörner (2019), 4 3 vgl. Heupel et al. (2020), 180 ff. 4 vgl. Dale et al. (2000), 23 und Semaan (2012), 50 5 Exkurs: 2017 präsentiert Sundar Pichai bei der Entwicklerkonferenz Google I/O die KI Google Duplex, die durch Sprechpausen und Nebengeräusche bei der Sprachausgabe mit der telefonischen Reservierung in einem Restaurant, natürlicher Sprache nahekommt. (siehe: https://www.youtube.com/watch?v=vWLcyFtni6U) 6 vgl. Semaan (2012), 51ff. und Hörner 12 17
Apps sind eigenständige Programme mit Application Programming Interfaces (API) zur übergeordneten Programmlogik des Sprachassistenten. Sie können auf externe Datenquellen zugreifen und sind vergleichbar mit Apps auf Smartphones.1 Die Erzeugung und Ausgabe von natürlicher Sprache basiert auf unterschiedlichen Modellen der Computer-Linguistik und umfasste vor der Nutzung von Machine-Learning-Ansätzen eine Abfolge von Schritten - die Inhaltsbestimmung des Ausgabetextes, Strukturierung der Teile des Ausgabetextes, Kumulierung von ähnlichen Inhalten, Auswahl von verweisenden Termen und die Erstellung eines Textes unter Berücksichtigung der Regeln des Syntax, der Morphologie und Orthographie.2 Durch Machine-Learning mussten keine vordefinierten Schritte im Prozess mehr abgearbeitet werden. Vereinfacht ausgedrückt erstellt der Machine-Learning- Algorithmus auf Basis großer Datenmengen sein eigenes Set aus Regeln und entscheidet anhand derer über den Inhalt des Ausgabetexts. Diese Machine-Learning-Methoden sind allerdings insbesondere bei hoher Komplexität der Datenstruktur weitestgehend Black-Box- Modelle - somit liegt die dahinterstehende Logik im Verborgenen.3 2.4. Online-Funktionalität von Sprachassistenten Ein zentraler Unterschied zwischen den in Kapitel 2.1 vorgestellten HMI aus den Anfängen des Computerzeitalters und der Methode der Sprachsteuerung liegt in der benötigten Rechenleistung zur Verarbeitung von Steuerungsbefehlen. Zur Verarbeitung eines Mausklicks oder des Tippens auf einem Touchscreen werden keine Rechenzentren im Back-End benötigt. Das Gerät, auf dem der Befehl eingeht, bewältigt die Verarbeitung selbst.4 Im Hintergrund muss nicht die Bedeutung der Eingabe interpretiert werden, da das Tippen oder Klicken auf eine Schaltfläche, unabhängig davon, ob es sich um eine App auf einem Smartphone oder eine Anwendung am Desktop eines PCs handelt, eine für Computer eindeutige Anweisung ist - nämlich das Ausführen ebendieser Funktion, die der Schaltfläche hinterlegt ist. Der Computer hat in diesem Fall keinen Spielraum für eine Interpretation.5 Sprachsteuerung benötigt ebendiese Interpretation von Eingaben (Sprachbefehlen). So muss das NLU-System in diesem Rahmen entscheiden, welche Funktion auszuführen ist. Dieser Verarbeitungsschritt geschieht auf Basis großer Datenmengen, deren Verarbeitung nach ebenso 1 vgl. Lenz-Kesekamp et al. (2018), 19 ff. 2 vgl. Dale et al. (2000), 50 ff. 3 vgl. Castelvecchi (2016), 21 und Gatt et al. (2018), 97 4 vgl. Hüning (2019), 14 5 vgl. Bauer et al. (2015), 141 18
großer Rechenleistung verlangt. Aus diesem Grund wird die Funktionsweise der Sprachassistenten von Amazon, Apple und Google in eine Online- und Offlinefunktionalität unterteilt. Die Hauptfunktion im Offlinemodus des Sprachassistenten ist es, zuzuhören und Audiosignale, die das Mikrofon aufnimmt, nach dem Aktivierungswort zu filtern. 1 Falls das Aktivierungswort nicht erkannt wurde, geben Google, Amazon und Apple an, dass aufgezeichnete Inhalte nicht weiterverarbeitet, sondern nach kurzer Zeit vom Gerät gelöscht werden. So wird nach Angabe der Hersteller sichergestellt, dass nur Inhalte, die für den Sprachassistenten bestimmt sind, in die Onlineverarbeitung einfließen. Sobald der Sprachassistent jedoch das Aktivierungswort erkennt, stellt er eine Verbindung zu den externen Servern her. Auf diesen Servern ist die eigentliche Logik abgebildet und erst hier kommt es zur Interpretation des Sprachbefehls.2 Zwei Vorteile, die sich daraus ergeben, dass sich der Großteil der Software nicht auf dem Endgerät befindet, sind das Wegfallen von datenintensiven Updates und die Möglichkeit, große Datenmengen in nahezu Echtzeit zu analysieren und aktuelle Ergebnisse in das Entscheidungsmodell des Sprachassistenten einfließen zu lassen. Insbesondere der zweite Aspekt wirkt sich stark auf den Kundennutzen aus.3 Die Genauigkeit im Verstehen der Absicht des Nutzers ist von der Möglichkeit zur Verarbeitung großer Datenmengen abhängig. Je genauer diese Absicht verstanden werden kann, desto präziser kann schlussendlich auch die Antwort bzw. Reaktion ausfallen. Bei Sprachassistenten sind insbesondere auch die personenbezogenen Daten des Nutzers relevant, um das Spektrum an Assistenzdiensten ausschöpfen zu können.4 An dieser Stelle wird wiederum das Beispiel aus Kapitel 2.3 zur Veranschaulichung herangezogen. Der Sprachassistent konnte in diesem Fall nicht nur gezielt auf die Frage des Nutzers eingehen, sondern auch noch alternative Entscheidungsmöglichkeiten offerieren. Diese Alternativen basieren auf den Daten des Nutzers, auf die die Verarbeitungslogik im Hintergrund zugreifen kann. Die verfügbaren Daten werden unter anderem durch die Synchronisation des Sprachassistenten mit anderen Konten erweitert.5 Je breiter die Zugriffsberechtigung des Sprachassistenten auf persönliche Daten ist, desto vielfältiger kann dieser auch assistieren. Diese Zugriffsberechtigungen beziehen sich auf Konten, die für die Nutzung gewisser 1 vgl. Deloitte et al. (2018), 16 ff. 2 vgl. Hörner (2019), 25 3 vgl. Almeida (2017), 16 4 vgl. Orr et al. (2018), 73 5 vgl. Hörner (2019), 193 19
Anwendungen benötigt werden bzw. die Nutzung erleichtern. Mit einem Google-Konto können zum Beispiel unterschiedlichste Google-Dienste personalisiert genutzt werden. Bei vielen Anwendungen und Online-Diensten, die nicht von Google stammen, ist mittlerweile sogar keine Registrierung beim eigentlichen Anbieter notwendig, wenn sich der Nutzer mit einem Google-Konto anmeldet.1 Es werden aber nicht nur Daten von Online-Diensten verwendet. So ist der Zugriff auf den Ortungsdienst auch gängig.2 2.5. Betriebssysteme und Voice-Apps Bevor ein Sprachassistent auf die Frage „Wie komme ich von hier am schnellsten mit dem Zug nach Hause?“, die nächste Zugverbindung von Graz nach Wien suchen kann, benötigt er für Probleme, die er mit seinen eigenen Grundfunktionen nicht direkt lösen kann, entweder eine Schnittstelle zu einer Datenquelle, aus der er die Lösung erschließen kann, oder die Möglichkeit, auf ein Subsystem zuzugreifen, das seine eigene Verarbeitungslogik und Datenquellen zur Bearbeitung hat. Solche Subsysteme sind grundsätzlich nicht neu. Im Bereich von Desktop-PCs sind sie als Programme bei Smartphones und Tablets als Apps bekannt. Sie ergänzen die Betriebssysteme, welche die funktionale Basis darstellen, in ihrer Funktionalität und stellen die Value Proposition dar.3 Wie groß wäre der Nutzen eines Laptops ohne die Office-Anwendungen Word, Outlook, Excel, PowerPoint oder Vergleichbares? Was wäre unser Smartphone ohne Instagram, Strava oder Spotify? Diese Programme und Apps ergänzen das Betriebssystem auf einer Ebene, die Hersteller in dieser funktionalen Tiefe nicht bereitstellen könnten. Daher erzeugt schlussendlich das Netzwerk aus dem Betriebssystem, Programmen und Apps den Kundennutzen.4 In Analogie zu Programmen und Smartphone- bzw. Tablet-Apps bieten einige Hersteller von Sprachassistenten5 die Möglichkeit zur Implementierung von Voice-Apps in die Logik ihres Betriebssystems an. Dieses stellt wiederum die funktionale Basis des gesamten Sprachassistenz-Ökosystems dar.6 Es bietet die grundlegende computer-linguistische Verarbeitungslogik von Anfragen als Rahmenwerk, in das Voice-Apps über Schnittstellen integriert werden können. Das soll dazu führen, dass die Vielfalt an verfügbaren Funktionen 1 Anmerkung: zum Beispiel Facebook, Airbnb oder Booking.com 2 vgl. Kreutzer (2019), 138ff. 3 vgl. Lenz-Kesekamp et al. (2018), 6 ff. 4 vgl. Henseler (2012), 113 ff. 5 vgl. Anmerkung: Amazon und Google bieten die Integration von Voice-Apps an. Apple das lässt bislang noch nicht zu. Siri kann allerdings auf IoS laufende Apps ansteuern. 6 vgl. Kreutzer (2019), 149 20
Sie können auch lesen