Sprache im Kontext multimodaler Information und Kommunikation bei mobiler Computernutzung - Universität Koblenz Landau

Die Seite wird erstellt Sören Breuer
 
WEITER LESEN
Sprache im Kontext multimodaler Information und Kommunikation bei mobiler Computernutzung - Universität Koblenz Landau
Sprache und Datenverarbeitung 2 (2005), 169-183.

                 Sprache im Kontext multimodaler
                 Information und Kommunikation
                   bei mobiler Computernutzung
                                 Reinhard Oppermann

Abstract
The paper describes the constraints of mobile use of computers in the process of differ-
ent contexts of use including stationary and mobile periods. Selection and design of
input/output modalities of the user computer interaction have to consider such multiple
contexts of use at different places under different usage conditions and together with
different primary activities. This contribution discusses the context of use of mobile
applications, the multimodality of input and output methods of user computer interac-
tion during mobile usage, and the specific pros and cons of speech during mobile usage.
Examples of speech interaction in mobile applications are presented together with
chances and design requirements for multimodal user interfaces in several projects.
Der Beitrag beschreibt die Randbedingungen mobiler Computernutzung in einem Ab-
lauf verschiedener Nutzungssituationen, die stationäre und mobile Teilphasen umfassen.
In einen solchen Nutzungskontext ist die Auswahl und Gestaltung von Ein-
/Ausgabemodalitäten für Inhalte und für Interaktionsmethoden einzuordnen. Entspre-
chend befasst sich der Beitrag mit dem Kontextbegriff, mit der Multimodalität und mit
der speziellen Modalität von gesprochener Sprache im Zusammenhang mit mobiler
Nutzung. Es werden Beispiele für Anwendungen mobiler Computersystemen aufgezeigt
und die Einsatzmöglichkeiten, Chancen und Gestaltungsanforderungen an multimodale
Benutzerschnittstellen anhand konkreter Projekte diskutiert.

1. Einleitung
Informations- und Kommunikationsdienste erfolgen mehr und mehr fern von klassi-
schen Arbeitsplatzcomputern. Sie erfolgen an verschiedenen Orten, zu verschiedenen
Zeitpunkten, über verschiedene Geräte. Informations- und Kommunikationsdienste ho-
len durch die Miniaturisierung der Endgeräte (Mobiltelefon, Persönlicher Digitaler As-
sistent – PDA) und durch die Verbreitung von drahtlosen Funknetzwerken das nach,
was klassische Technik ebenfalls erlebt hat, nämlich dezentralisierten Einsatz, Entbin-
dung von Großtechnologie. Bei Informations- und Kommunikationsdienste erfolgte der
erste Schritt durch die Entwicklung der Personalcomputer (Desktops), die stationär am
Arbeitsplatz des Benutzers eingesetzt wurden. Der zweite Schritt bestand in den semi-
mobilen Personalcomputern (Laptops), die von einem Ort zum anderen mitgenommen
werden konnten. Der gegenwärtige dritte Schritt besteht im Einsatz von ultraportablen
Personalcomputern (PDAs), die einen Einsatz während der Mobilität (im Gehen, im
Stehen) erlauben. Der nächste Schritt wird in der verteilten Informations- und Kommu-
nikationstechnik eingebettet in die Umgebungstechnik bestehen (Ambient Computing),
bei der es gar keines persönlichen Gerätes des Benutzers mehr bedarf – der Benutzer
bedient sich über Identifizierungstechniken der Dienste, die in der Umgebung bereitge-
halten werden (persönliche Fahrplanauskunft durch die Haltestellensäule).
Sprache im Kontext multimodaler Information und Kommunikation bei mobiler Computernutzung - Universität Koblenz Landau
Sprache und Datenverarbeitung 2 (2005), 169-183.

Diese Entwicklung ermöglicht bereits in der gegenwärtigen Stufe der mobilen Compu-
ternutzung neuartige Qualitäten von „nomadischen“ Diensten, die im Wesentlichen eine
Durchgängigkeit ohne Bindung an dezidierte Geräte bedeutet. Der Benutzer kann in
allen Phasen von Aktivitäten an den jeweils zu den Aufgaben gehörigen Orten mit pas-
sender technischer Infrastruktur auf die Dienste zugreifen: in der Vorbereitung einer
mobilen Tätigkeit noch zu Hause/im Büro auf voll interaktive Geräte mit großen Dis-
plays, während der mobilen Phase und am Zielort der Aktivität auf kleine Geräte mit
begrenzten Interaktionsmöglichkeiten und schließlich nach Beendigung der mobilen
Phase wieder zurück zu Hause/im Büro zur Auswertung und zur Dokumentation der
Aktivitäten wieder auf voll interaktive Geräte mit großen Displays. Als Beispiel für
solche Szenarien mag man sich Reisen von Vertretern, Wartungsmonteuren, Messe-
oder Museumsbesuchern vorstellen. Sie alle brauchen Informationen für die Anreise,
Unterlagen für spezielle Aufgaben vor Ort und müssen bzw. wollen für geschäftliche
oder persönliche Zwecke Handlungsergebnisse oder Eindrücke festhalten und weiterge-
ben können.
Die technischen Möglichkeiten durchgängiger Informations- und Kommunikations-
dienste schließen als Voraussetzung die genannten stationären und mobilen Endgeräte
und drahtlose Funknetzwerke in Form von Wireless Local Area Networks (WLAN-
Hotspots) oder Mobiltelefonie (GSM, GPRS, UMTS) für die kontinuierliche Daten-
übermittlung ein. Diese Voraussetzungen genügen aber noch nicht, wie wir derzeit an
der begrenzten Nutzungsverbreitung und Akzeptanz mobiler Dienste sehen können, die
noch nicht wirklich über mobile Telefonie hinausgehen. Entscheidend wird die Verbes-
serung der Interaktionsmöglichkeiten mit den Geräten in der mobilen Nutzungsphase
sein. So wie die stationäre Technologie der Personalcomputer erst mit der Technik der
WIMP-Benutzerschittstelle (Windows, Icons, Menus and Pointing device ) ihren
Durchbruch erfuhr (auch wenn bis heute noch längst nicht alle Benutzungsprobleme
gelöst sind), so wird die mobile Technologie auch eine Reihe von Entwicklungsgenera-
tionen brauchen, bis sie intuitiv(er) benutzt werden kann. Entscheidend werden nach
unserer Auffassung zwei Bedingungen sein, die Multimodalität der Ein-/Ausgabe und
die Kontextualisierung der Inhaltsselektion und der Interaktionsmethoden. Mit diesen
beiden Bedingungen werden wir uns in diesem Beitrag befassen und dabei herausarbei-
ten, welche Rolle die Sprache und die verschiedenen Modalitäten der Sprache bei mobi-
ler, verteilter und kontextualisierter Nutzung spielen.

2. Kontextualisierung bei mobilen IuK-Diensten
Kontextualisierung bedeutet die Anpassung von Diensten an die aktuelle Situation. Die
Situation ist bestimmt durch den Zeitpunkt, den Ort, die physikalische und soziale Um-
gebung, die technischen Geräte und die technische Infrastruktur sowie eventuelle Ein-
flussfaktoren wie Licht/Dunkelheit, Lärm, Nässe, Verkehrsgeschehen und andere äuße-
re Faktoren, die die Interaktion mit mobilen IuK-Diensten beeinflussen können. Kon-
textualisierung von mobilen IuK-Diensten ist mehr als Situierung. Die Situation bein-
haltet einen momentanen Ausschnitt im Strom der individuellen Geschichte. Kontext
berücksichtigt darüber hinaus eben diese Vorgeschichte, das heißt die Kenntnisse, die
Interessen, den Bearbeitungsstand von Aufgaben etc. Eine Anpassung von mobilen
Sprache im Kontext multimodaler Information und Kommunikation bei mobiler Computernutzung - Universität Koblenz Landau
Sprache und Datenverarbeitung 2 (2005), 169-183.

IuK-Diensten an den Kontext bedeutet, dass die Dienste hinsichtlich der Inhalte und
hinsichtlich der bereitgestellten Interaktionsmethoden aufgrund der Situationserfassung
und der Prozessverfolgung auf die aktuellen Bedürfnisse zugeschnitten werden. Ermög-
licht wird dies erstens durch eine kontinuierliche Profilerstellung des Benutzers (Model-
lierung der Interessen, der Kenntnisse, Fertigkeiten und Präferenzen des Benutzers und
seiner regelmäßigen Aufgabenabläufe). Eine solche Benutzermodellierung erfolgt be-
reits seit geraumer Zeit im Zusammenhang mit adaptiven Systemen. Hinzu kommt der-
zeit eine Identifizierung des Aufenthaltsortes in Bezug auf die Objekte, auf die sich das
Interesse oder die Aufgabe des Benutzers und damit sein Informations- und Kommuni-
kationsbedarf beziehen. Dies wird häufig als Location-based Services (LbS) bezeichnet
und ist in der Regel noch nicht auf einzelne Individuen zugeschnitten, insofern als die
LbS pauschal auf alle an sensiblen Orten auflaufenden Benutzer ausgeschüttet werden:
z. B. werden alle Handyträger in der Nähe einer Buchhandlung auf aktuelle Neuerschei-
nungen oder in der Nähe des Kölner Domes auf dessen Geschichte hingewiesen. Durch
die Verbindung von Benutzermodell und Lokalisierung kann eine mobile Personalisie-
rung erfolgen, so dass nur noch der Bücherfreund über seine Literatursparte und der
Kulturfreund über die Sakralgeschichte informiert werden. Ermöglicht wird die Lokali-
sierung durch eine Reihe von Technologien, die in unterschiedlichen Umgebungen ein-
gesetzt werden können: z. B. GPS oder GSM/UMTS im offenem Raum und WLAN
oder Infrarot innerhalb von Gebäuden (Oppermann 2005). Je nach Technologie und je
nach Umgebung kann eine unterschiedliche Genauigkeit und kann zusätzlich zur Loka-
tion auch die Blickrichtung als Indikator der aktuellen Aufmerksamkeit ermittelt wer-
den.

3. Multimodalität bei mobilen IuK-Diensten
Neben der Kontextualisierung zur Auswahl von Inhalten und zur Eingrenzung von In-
teraktionsmethoden spielt die angemessene Modalität der Eingabe und der Ausgabe von
Informationen eine zentrale Rolle für den Erfolg mobiler IuK-Dienste. Wenn von an-
gemessener Modalität gesprochen wird, bedeutet dies schon im Ansatz, dass es sich je
nach Umständen um die eine oder die andere Modalität handeln muss, dass es also nicht
die einzig richtige Modalität gibt. Unter Modalität verstehen wir die jeweils angespro-
chenen Wahrnehmungs- bzw. Ausdrucksmittel des Benutzers über seine Sinnesorgane.
Ein Inhalt kann in Form einer visuellen Darstellung (Text, Grafik, Tabelle) oder in
Form von lautsprachlicher Präsentation ausgegeben werden. Auch Anfassen, Fühlen,
Riechen sind Modalitäten der Informationsausgabe am Gerät bzw. der Informationsaus-
gabe beim Benutzer. Bei den meisten natürlichen Informations- und Kommunikations-
handlungen von Menschen sind mehrere Modalitäten, ist also Multimodalität beteiligt –
beim Reden wird neben dem akustischen Kanal der optische und zum Teil auch der ol-
faktorische und haptische Kanal einbezogen: man hört den anderen, man sieht den ande-
ren, man riecht den anderen, man fasst ihn manchmal an. Bei medialer Kommunikation
fehlt dem ausdruckgebenden (sendenden) Kommunikationspartner ein Kanal, wie man
bei der ins Leere gehenden Gestik beim Telefonieren oder bei den untertonersetzenden
Smilies bei E-Mails sieht.
Sprache und Datenverarbeitung 2 (2005), 169-183.

Bei der Realisierung von medialer Kommunikation ist Multimodalität keine Selbstver-
ständlichkeit. Schon bei „klassischen“ Medien nicht:
- eine Buch kann man nicht hören (Hörbücher gibt es in einem eigenen HörVerlag)
- eine Radiosendung kann man nicht lesen
- eine Fernsehreportage kann man nicht spüren
Bei „neuen“ Medien ist Multimodalität unter dem Stichwort „Multimedia“ zu einem
Definitionsmerkmal geworden. Wenn mehrere Modalitäten kombiniert werden, genau-
er, wenn wenigstens eine dynamische Modalität (z.B. Sprache, Video) beteiligt ist,
spricht man von Multimedialität – meint aber eigentlich Multimodalität.
Bei mobilen Diensten werden bereits neue Modalitäten eingesetzt, die den spezifischen
Nutzungscharakteristika besser entsprechen sollen. Bei Handys sind „Klingeltöne“ in
Form von Vibration eine verbreitete Modalität der Alarmierung, die für die Umgebung
weniger aufdringlich sein soll. Für die Informationsabfrage sind Gesten des Benutzers
eine mögliche Weiterentwicklung derzeit erforschter Methoden unter Nutzung von Iner-
tialsensorik. Lautsprachliche mobile Ausgaben über Kopfhörer sind bei Audioguides in
Ausstellungen bekannte Beispiele von mobilen IuK-Diensten. Reziprok sind Komman-
dosprachen für die Systemsteuerung zu sehen, mit denen der Benutzer mobile IuK-
Dienste abruft oder Inhalte und Kommentare aufnimmt. Diese Modalitäten sollen im
mobilen Einsatz die Bequemlichkeit erhöhen und die Be- oder Überlastung anderer Sin-
neskanäle vermeiden helfen. Bei einem Museumsbesuch sollen die Augen frei für die
Betrachtung der Kunstwerke gehalten und nicht für das Lesen von Erläuterungen vom
Papier oder einem Bildschirm gebunden werden. Bei der Wartung von Maschinen sol-
len Auge und Hand durch auditive Erläuterungen unterstützt und die Protokollierung
der Erledigungsschritte durch lautsprachliche Eingaben ermöglicht werden.
Für die Ein-/Ausgaben spielen neben den Modalitäten die Codierungen von Informatio-
nen eine Rolle. Modalitäten und Codierungen machen zusammen die spezifische Form
der Medialität aus. Codierungen beinhalten die Form einer Darstellung innerhalb einer
Modalität. Bei der visuellen Darstellung kann eine Information mittels Text, mittels
Tabelle oder mittels Grafik codiert werden. Bei der akustischen Darstellung kann über
gesprochene Sprache, über Tonsignale oder über Melodien codiert werden. Die Beispie-
le zeigen bereits, dass die Wahl der Codierung nicht beliebig ist. Die Codierungswahl
wird wesentlich durch die Inhalte und die Aussagenziele bestimmt. Die Modalität wird
wesentlich durch die äußeren Umstände (Licht, Lärm, Bewegung) und die aktuell gege-
benen technischen Randbedingungen (Gerätetyp, Empfangstechniken) bestimmt. Codie-
rung und Modalität sind in einigen Fällen disjunkt (Tabellen kann man nicht hören), in
einigen Fällen sind sie konfundiert (beim Video muss man sehen und hören).

4. Sprache bei multimodalen mobilen IuK-Diensten
Die Sprache kam bereits bei der Besprechung der Multimodalität von Informationsdar-
stellungen als eine wesentliche Modalität vor. Dabei war Sprache zunächst einmal als
Lautsprache verstanden worden. Lautsprachliche Sprache ist bei mobilen Diensten von
besonderer Bedeutung, weil sie am wenigsten Aufmerksamkeit des Benutzers an techni-
sche Komponenten bindet, wohl aber an den Inhalt der Präsentation. Sprachliche Prä-
sentation lässt die visuelle Aufmerksamkeit in der Umgebung:
- der Museumsbesucher kann wahrnehmen, kann die Exponate genießen,
Sprache und Datenverarbeitung 2 (2005), 169-183.

-   der Passant gefährdet sich nicht, er sieht die Straßenbahn,
-   der Monteur kann mit seinen Händen die Anlagenteile manipulieren (Schmidt, Wie-
    denmaier et al. 2005).
Bei der Sprache kann sich sowohl ein Sprecher als auch ein Hörer voll auf Produktion
bzw. Rezeption von Inhalten konzentrieren und hat Augen und Hände frei, die gerade
bei mobilen Aktivitäten von besonderer Bedeutung für die Primäraufgaben sind (Nor-
mand, Pernel et al. 1997; Furui 2000; Karat, Vergo et al. 2003).
Sprache ist jedoch keine einfache Modalität. Sie kommt zwar primär als Lautsprache
vor, die die verbreitetste Form der sprachlichen Kommunikation ist. Sie kommt aber
natürlich auch vor als Schriftsprache, die hauptsächlich in klassischen Medien genutzt
wird (Buch, Zeitung, Beschriftungen). Sprache kommt auch als maschinell generierte
Lautsprache vor, die mittels Computer für spezielle Zielgruppen und Situationen er-
zeugt wird. Ebenfalls für spezielle Zielgruppen, die Gehörlosen, gibt es die Gebärden-
sprache als eine hochkomplexe Zeichensprache mit einem elaborierten Wortschatz und
einer eigenständigen Grammatik. Gestik schließlich ist eine dynamische Zeichensprache
mit begrenzter Pragmatik, die auch bereits für die Dialogsteuerung eingesetzt wird. Sta-
tische Zeichen (Symbole, Icons) sowie Animationen sind ebenfalls sprachliche Mittel,
die der Verständigung dienen und durch prägnante Gestaltung zu einer schnellen Ent-
deckbarkeit führen sollen, jedoch lernbedürftig sind und deshalb oft permanente oder
temporäre textsprachliche Erläuterungen enthalten (Label, Tooltip).
Bei Sprache denkt man also zunächst an die Lautsprache. Sie ist in der Tat für die mobi-
len IuK-Dienste die wichtigste Ergänzung zur visuellen Modalität. Gegebenenfalls er-
folgt eine Navigation in strukturierten oder großen Informationsräumen zunächst noch
mittels visueller Präsentation und Zeigeoperationen/-selektionen. Die inhaltliche Infor-
mationspräsentation erfolgt bei mobilen Diensten, dann jedoch oft durch Ausgabe ge-
sprochener Sprache. Dies ist der Standardfall. Für ihn spricht, dass die gesprochene
Sprache am leichtesten und am liebsten rezipiert wird. Die Vertrautheit mit dieser Mo-
dalität ist bei weitem die verbreitetste. Aber auch die Qualitätsansprüche sind hoch; die
Beurteilung eines Videoproduktes erfolgt primär nach der Tonqualität (Holman 1999)
und erst in zweiter Linie nach der Bildqualität, wobei die Tonqualität sich nach der
Stimmqualität, der Ton-/Übertragungsqualität und der Störfreiheit durch Umgebungsge-
räusche bei Aufnahme und Wiedergabe bemisst.

4.1 Probleme und Nachteile gesprochener Sprache
Gesprochene Sprache hat neben den Vorteilen einer geringen Aufmerksamkeitsbindung
an technische Komponenten und damit gute Erreichbarkeit des Rezipienten bei Mehr-
fachhandlungen (vgl. Abbildung 1) auch Probleme und Nachteile.
Sprache und Datenverarbeitung 2 (2005), 169-183.

                                                                   Fünffachaufgabe:
                                                                   • Umgebung wahrnehmen,
                                                                   • Auto steuern,
                                                                   • Dose kontrollieren,
                                                                   • Zigarette kontrollieren,
                                                                   • Telefonieren

     Abbildung 1: Beispiel für gleichzeitige auditive, visuelle und motorische Anforderungen

Die Informationsaufnahme des Menschen erfolgt insgesamt zu einem höheren Prozent-
satz über den visuellen Kanal. Ca. 80% der Informationen sollen über das Auge aufge-
nommen werden, nur ca. 10 % über das Ohr und noch weniger über die anderen Sinnes-
kanäle. Selbst wenn diese Zahlen nicht exakt stimmen (bei einer belebten Alltagssitua-
tion oder einem Spielfilm mag dies so sein, bei einer Dichterlesung wird sicher das Ohr
das primäre Aufnahmeorgan sein), so ist doch deutlich, dass der gesprochenen Sprache
als Möglichkeit der Informationsübermittlung eine begrenzte Rolle zukommt, dass ge-
sprochene Sprache also eine Ergänzung anderer Modalitäten bildet. Mit Sprache kann
differenzierter Inhalt, können abstrakte Inhalte, können auch Stimmungen vermittelt
werden. Die Rezeption gesprochener Sprache kann ein Genuss sein, sie kann zur Erhö-
hung des Stimmungsgehalts mit Musik hinterlegt sein. Dies wird bei unterhaltsamen
auditiven Präsentationen genutzt, um die Attraktion zu erhöhen und die Vermarktung zu
fördern – z.B. bei Führungssystemen in Ausstellungen.

4.1.1 Sequenzialität und Flüchtigkeit von Sprache
Als Nachteile von gesprochener Sprache ist insbesondere die Flüchtigkeit von Sprache
zu nennen. Sprache vollzieht sich in der Zeit. Weder Sprecher noch Hörer können die
gesprochene Sprache an beliebigen Punkten festhalten. Sobald Sprache angehalten wird,
erstirbt sie. Bei gesprochener Sprache ist die Übersichtlichkeit beschränkt. Der Rezipi-
ent kann die gesprochene Einheit nicht überfliegen, er kann nicht von einem markanten
Stichwort zu einem anderen springen, er kann nicht rückwärts rezipieren. Jeder Sprung
an frühere Punkte ist mit Wiederholung von Zeitepisoden verbunden – wenn die Präsen-
Sprache und Datenverarbeitung 2 (2005), 169-183.

tation durch technische Aufzeichnung denn überhaupt wiederholbar ist. Die Strukturie-
rung von lautsprachlichen Präsentationen, ihre Länge, die Beziehung ihrer Teile zuei-
nander sind weniger gut zu erkennen als bei einer visuellen Präsentation. Lautsprachli-
che Präsentationen können die Aufmerksamkeit des Rezipienten weniger lange binden
als visuelle Präsentationen. Man kann stundenlang ein Buch lesen, aber man kann nicht
stundenlang einem Erzähler zuhören. Irgendwann lullt auch der beste Erzähler den Zu-
hörer ein. Für die Dauer der Rezeption einer lautsprachlichen Präsentation ist die (viel-
leicht noch gut vorgetragene) Erzählung der günstigste Fall. Selbst wenn der Rezipient
einmal durch die Anregung einer Episode mit eigenen Gedanken abschweift oder durch
äußere Umstände abgelenkt wird, ist er meist schnell wieder im Vortragsgeschehen
drin, ohne den Zusammenhang vollständig zu verlieren. Ein kritischeres Beispiel für
Rezeptionsprobleme lautsprachlicher Präsentationen kann man bei der Durchsage von
Staumeldungen im Auto erleben. Bei Verkehrsmeldungen mag sich der Autofahrer noch
so sehr auf seine aktuelle Position und seine vorgestellte Fahrtroute konzentrieren, es
entgeht ihm nur allzu leicht die ihn betreffende Ansage, weil seine Aufmerksamkeit mit
der Beschreibung des Abschnitts, der Beschreibung der Fahrtrichtung, der Beschreibung
der Art der Behinderung und der Beschreibung des Umfangs der Behinderung in der
kontinuierlichen Abfolge von Ansagen überfordert ist – und wenn die eine Meldung
dekodiert ist, ist die nächste Meldung, die ebenfalls relevant ist oder bezüglich Alterna-
tivrouten relevant werden könnte, gerade schon vorbei. Die Besonderheit dieses Bei-
spiels liegt in der Strukturiertheit der Präsentation: mehrere logistische Elemente (Ort,
Richtung, Zeit) sowie mehrere inhaltliche Elemente (Art, Umfang) müssen mit dem
aktuellen Kontext des Rezipienten in Beziehung gesetzt, relevante Ausschnitte selektiert
und hinsichtlich verschiedener Entscheidungsalternativen ausgewertet werden. Dafür ist
die Auflösung der Elemente und ihre sequentielle Präsentation nicht die geeignetste
Form. Hier ist die Kontextualisierung der Selektion von Verkehrsabschnitte aufgrund
der aktuellen Position des Verkehrsteilnehmers und seines eingegebenen Fahrziels ein
Schritt zur Lösung. Hierfür gibt es bereits verschiedene Systeme, die entweder dezentral
im Auto den Navigationsdienst mit dem Verkehrsfunk koppeln (Verkehrsfunkdecoder)
oder zentrale serverbasierte Navigationsplanung per Funk auf den Präsentationsclient
im Auto übertragen (Beispiel: T-Navigate über GPRS).

4.1.2 Bearbeitbarkeit von lautsprachlichen Produktionen
Lautsprachliche Präsentationen lassen sich nur mit Aufwand bearbeiten. Gesprochene
Sprache ist in hohem Maße person-, umgebungs- und ggfl. techniksensitiv. Eine einmal
gesprochene Sequenz kann nur von derselben Person in vergleichbarer Umgebung und
mit vergleichbarer Technik bearbeitet werden. Jede andere Person als Sprecher fällt
sofort als Fremdkörper in einem Sprachfluss auf. Dies kann natürlich als Effekt gewollt
sein, aber wo es nicht gewollt ist, kann der Effekt nur sehr begrenzt mit technischen
Mitteln umgangen werden. Audioeditoren erlauben eine Edition der Sprache eines
Sprechers problemlos bezüglich des Ausschneidens, z. B. von Ähs und Ehms; das Um-
stellen ist wegen der Intonation schon schwierig, das Einfügen neuer Elemente erst
recht. Bei schriftlichen Produkten war in der Zeit der handschriftlichen Produktion ein
ähnlicher Zustand gegeben. Kleine Korrekturen konnten durch Überkleben vorgenom-
Sprache und Datenverarbeitung 2 (2005), 169-183.

men werden, ansonsten musste durch Neuschreiben des Absatzes, der Seite, des Kapi-
tels ein großer Schnitt gemacht werden. Anders bei schriftlichen Produkten mit heutiger
Textverarbeitung. Hier bereitet es Mühe, Änderungen nachzuvollziehen. Am Stil kann
bestenfalls ein Experte Bearbeitungen aufdecken. Text kann nachgebessert werden, oh-
ne dass man die Änderungen sieht. Der Überarbeitungsmodus in der Textverarbeitung
ist ein Mittel, um diese Spurlosigkeit der Überarbeitung für Dritte sichtbar zu machen.
Lautsprachliche Produktion und kontinuierliche Aktualisierung ist damit ein Problem,
das u.U. aus praktischen, ökonomischen oder ästhetischen Gründen zur Unterlassung
fälliger Änderungen führt. Ein Weg der Bearbeitungsunterstützung bei änderungsinten-
siven Sprachpräsentationen besteht darin, Elemente separat aufzunehmen und erst in der
Präsentation zusammenzusetzen (zu konkatenieren). Navigationssysteme für die Rou-
tenplanung sind ein Beispiel für diesen Weg, der wegen der begrenzten Anzahl von ca.
60 sehr einfachen Phrasen (rechts Abbiegen, links Abbiegen, nach 100 Metern, Sie ha-
ben Ihr Ziel erreicht etc.) gut gangbar ist.

4.1.3 Technischer Umgang mit der lautsprachlichen Modalität
Ein wahrscheinlich vorübergehendes Problem von Sprachkonserven ist der höhere
Speicherbedarf und die Übertragungskapazität gegenüber geschriebenem Text. Je nach
Format des Textes bzw. der Sprachkonserven liegt das Verhältnis bei 1 (TXT) : 500
(MP3) : 5000 (WAV). Bei dem technischen Fortschritt der Komprimierungstechniken
und der Speicherverfügbarkeit wird dieses Problem an Schärfe verlieren.
Ein anderer Weg ist die Transformation von Text in Sprache durch einen elektronischen
Sprachgenerator. Hier ist einerseits die Ausgabequalität nach wie vor unzureichend,
wenn es um längere Präsentationen für anspruchsvolle Zwecke geht, und die technische
Performanz ist begrenzt, insbesondere die Leistungsfähigkeit auf kleinen mobilen End-
geräten. Begrenzte Qualität von generierter Sprache wird akzeptiert, wenn sie alternativ-
los und nützlich ist. Beispiele sind Screenreader für Blinde (Eichstädt 2005) oder prag-
matische Hilfen/Instruktionen mit kurzen Passagen, wenn anders dynamische Informa-
tion nicht in Sprache gebracht werden kann.

4.2 Sprache im Umgang mit mobilen Medien
Sprache findet im Umgang mit mobilen Medien in einer zweifachen Weise Anwen-
dung. Einmal ist Sprache das Medium, über das Inhalte übermittelt werden. Eingaben
und Ausgaben, Präsentationen und Aufnahmen von lautsprachlichen Inhalten erfolgen
über mobile Medien wie PDAs, Handys oder deren Kombination. Hierauf richten sich
im Wesentlichen die oben genannten Qualitätsansprüche. Es geht um Sprechen bzw.
Hören von Notizen, Nachrichten, Erläuterungen im jeweiligen Kontext der Zeit, des
Ortes, der Umgebung, der Aufgabe. Sprache wird ebenfalls als Steuerungsinstrument
genutzt, wenn für die Interaktion zwischen dem Benutzer und dem Gerät andere Inter-
aktionsmethoden nicht adäquat sind. Eine Anwendung kann über Sprachbefehle gestar-
tet und beendet werden; einzelne Funktionen können durch Sprachbefehle initiiert wer-
den; durch Inhaltsräume kann navigiert werden. Umgekehrt können durch Sprachausga-
be Rückmeldungen gegeben, das Benutzerverhalten gesteuert oder Instruktionen erteilt
werden.
Sprache und Datenverarbeitung 2 (2005), 169-183.

Sprache kompensiert damit die begrenzten Interaktionsmöglichkeiten in mobilen ge-
genüber stationären Situationen, in denen Tastatur und Maus zur Eingabe und große
Bildschirme für die Ausgabe zur Verfügung stehen. Sprache ermöglicht dem mobilen
System aber auch durch die Navigationsauswertung als impliziter Interaktion des Be-
nutzers dessen Alarmierung, Informierung oder Instruierung.

5. Beispiele für Sprache in mobilen Anwendungen
Wir haben eine Reihe von mobilen Anwendungen entwickelt, in denen Sprache als Mo-
dalität für Informationspräsentationen eingesetzt wurde. Als erstes Bespiel ist der Aus-
stellungsführer Hippie für eine Kunstsammlung zu nennen (Oppermann und Specht
1999), bei dem Sprache zur Inhaltspräsentation verwendet wird. Ein zweites Beispiel
wird sich mit der Sprache für die Interaktion mit dem System befassen.

5.1 Ausstellungsführer mit lautsprachlicher Inhaltspräsentation
Der Ausstellungsführer Hippie konnte zur Vorbereitung des Ausstellungsbesuchs zu
Hause genutzt werden, um sich einen inhaltlichen Überblick zu verschaffen und eventu-
ell einzelne besonders interessierende Exponate für eine persönliche Tour vorzumer-
ken1. Beim Ausstellungsbesuch selbst konnte die Anwendung zusammen mit den per-
sönlichen Vormerkungen auf einem mobilen System (Subnotebook oder PDA) genutzt
werden, um sich führen und informieren zu lassen (vgl. Abbildung 2). Hier kam die
sprachliche Modalität zum Tragen. Neben einfachen akustischen Signalen zur Informie-
rung des Benutzers über örtliche oder inhaltliche Besonderheiten erfolgte die Erläute-
rung der Exponate durch sprachliche Präsentationen über einen Kopfhörer.

                  Abbildung 2: Benutzerschnittstelle des Ausstellungsführers Hippie

1
    Hippie wurde in dem EU-ESPRIT-Projekt HIPS unter der Vertragsnummer IST-1997-25574 gefördert.
Sprache und Datenverarbeitung 2 (2005), 169-183.

Die Benutzerschnittstelle beinhaltet ein Navigationsmenü oben links, eine Inhaltsdar-
stellung im Zentrum mit dem Namen und Bild des Exponats und erläuterndem Text
sowie eine Reihe von Attributen zu den Exponaten, die die jeweiligen Aspekte differen-
ziert je nach Interesse des Benutzers ansprechen. Die aktuell angezeigten und abspielba-
ren Attribute sind mit einem Pfeil markiert, sobald sie dargestellt, d.h. visuell angezeigt
und akustisch abgespielt wurden, sind abgehakt. Dies dient zur Orientierung des Benut-
zers. Die visuell dargestellten Texte entsprechen den lautsprachlich ausgegebenen Prä-
sentationen, die als Sprachkonserven übertragen werden.

Abbildung 3: Beispiel für eine grafische Erläuterung
Die in Abbildung 3 dargestellte grafische Erläuterung der Formsprache des Bildes
Amor und Merkur zeigt die Grenzen der laut- und schriftsprachlichen Mittel. In der Fi-
gur des Amor die Symbolelemente Pfeil und Bogen zu sehen, ist mit der Einschwärzung
des Umfeldes der Figur auf einfache Art möglich. Dies würde mit laut- oder schrift-
sprachlichen Mitteln erheblich schwieriger sein. Dies ist ein weiterer Beleg für die
Nützlichkeit multimodaler Präsentationen.
Die Ortung des Benutzers erfolgte über eine Infrarotinstallation von Sendern an den
Exponaten und einem Empfänger am Kopfhörer des Benutzers (Oppermann 2005). Die
Sprachausgabe wurde vom Benutzer gesteuert. Er konnte im Benutzerprofil einstellen,
ob er eine Erläuterung direkt nach Auswahl eines Exponats erhalten wollte, oder ob er
die Ausgabe explizit durch ein Startkommando beginnen wollte. Eine neue Präsentation
durch Weitergehen zu einem andern Standort und damit u.U. zu einem weiteren Expo-
nat wurde dann nicht automatisch gestartet, sondern die bisherige Ausgabe wurde fort-
gesetzt. Diese Interaktionssteuerung ist für lautsprachliche Ausgaben eine wesentliche
Besonderheit gegenüber einer visuellen Präsentation. Eine lautsprachliche Präsentation
beansprucht den Hörer, ohne dass er „weghören“ oder zu einer anderen Präsentation
„hinhören“ kann. Bei einer visuellen Präsentation z.B. in Form von schriftlichem Text
kann der Benutzer mit den Augen springen und damit selektieren. Die akustische Aus-
gabe verlangt damit sowohl bei der Steuerung als auch bei der Nachvollziehbarkeit der
Ausgabesequenzen eine spezielle Unterstützung. Im Fall des Ausstellungsführers Hip-
pie erfolgte diese Unterstützung durch einen einfachen Audiplayer, der folgende Form
beinhaltete (s. Abbildung 4).
Sprache und Datenverarbeitung 2 (2005), 169-183.

                             Im oberen linken Teil sind die üblichen Start/Stop und Pause-Knöpfe ange-
                             ordnet. Darunter erfolgen die Weiter- und Zurück-Knöpfe für das Über-
                             schlagen der aktuellen Sequenz (d.h. des o.g. Attributs des Exponats) bzw.
                             für die Wiederholung der letzten Sequenz. Im unteren Teil ist die aktuelle
                             Zeit der Ausgabe dargestellt und in Klammern die Gesamtzeit der aktuellen
                             Sequenz; darunter erfolgt die Angabe der Nummer der aktuellen Sequenz
                             und in Klammern entsprechend die Gesamtzahl der Sequenzen zu dem aktu-
                             ellen Exponat. Rechts ist ein Lautstärkeregler angebracht.

Abbildung 4: Audioplayer des Ausstellungsführers Hippie

Die dargestellten Steuerungs- und Rückkopplungsanzeigen sind gerade für auditive
Ausgaben entscheidend. Der Benutzer muss sich orientieren können, was er worüber
wie lange hört und wie er zu anderen interessierenden Inhalten gelangen kann. Die ge-
staltete Darstellung des Audioplayers ist eine einfache und orientiert sich an den grund-
legenden Prinzipien der Orientierung: Wo bin ich, wie bin ich hier her gekommen, wo-
hin kann ich von hier aus gelangen? (Nievergelt 1983).

Ein weiteres Projekt in diesem Kontext, das noch stärker auf die Steuerung der auditi-
ven Präsentationen durch das Navigationsverhalten der Benutzer ausgerichtet war, war
das System LISTEN im Kunstmuseum Bonn2. Hier konnte der Benutzer frei durch den
Ausstellungsraum gehen und hat durch die Art seiner Bewegung bestimmt, ob eine mu-
sikalische Präsentation, ob ein lautsprachlicher Überblick über eine Gruppe von Expo-
naten oder ob Details über ein einzelnes Exponat gesendet wurde. Die auditive 3-D-
Präsentation ermöglichte eine Ortung der Präsentationsquelle im Raum, so dass quasi
das entsprechende Bild zum Besucher sprach (Zimmermann und Lorenz 2005).

In einem letzten Projekt zur Nutzung von lautsprachlichen Methoden zur Inhaltsauf-
zeichnung im mobilen Kontext wurde Sprache zum Annotieren von Explorationsarbei-
ten von Schülern im Feld eingesetzt3. Hierzu wurde ein Mobile Collector entwickelt,
der Sprachaufzeichnungen im Kontext der Exploration im Feld erlaubte. Die Kontextua-
lisierung erfolgte automatisch durch Protokollierung der Zeit, des Ortes, der Aufgabe
und der ausführenden Akteure. Die Tests zeigten, dass ungeübte Benutzer nach einer
Einführungszeit von ca. 30 Minuten in der Lage waren, mit dem Werkzeug wiederver-
wendbare Sprachaufzeichnungen anzulegen und in nachfolgenden Situationen abzuru-
fen (Kravcik, Kaibel et al. 2004).

5.2 Sprachgesteuerte Interaktion bei mobilen Telefondiensten
Lautsprache wird neben der Inhaltspräsentation auch zur Interaktion zwischen Benutzer
und System eingesetzt. Dies erfolgt insbesondere dann, wenn Augen und Hände für
anderweitige Aufgaben gebunden sind. Neben dieser Nützlichkeitsbedingung gibt es

2
    LISTEN wurde als EU-IST Projekt unter der Vertragsnummer IST-1999-20646 gefördert.

3
    RAFT wurde als EU-IST Projekt unter der Vertragsnummer IST-2001-34273gefördert.
Sprache und Datenverarbeitung 2 (2005), 169-183.

eine Reihe weiterer Faktoren, die für den Einsatz von Lautsprache relevant sind. Ein
Faktor ist die angenommene Routine der Benutzer in Verbindung mit der Komplexität
und der Variantentoleranz der Anwendung. Ein einfacher Dialog, der lediglich mit
Ja/Nein oder Zahlen beantwortet werden muss, kann auch bei nicht routinierten Benut-
zern eingesetzt werden. Sprachmenüs per Telefon sind ein Beispiel. Die Alternativen
der Abfragen sind sehr begrenzt, lassen sich mit Ja oder nein oder einstelligen Ziffern
beantworten. Der Nachteil besteht in der oft starren Reihenfolge und Kleinschrittigkeit
des Dialogs. Für routinierte Benutzer sind hier gelegentlich bereits lautsprachliche Fol-
gen von Befehlen vorgesehen, um diese Nachteile zu umgehen. Bei komplexeren Sys-
temen mit weniger eindeutigen bzw. mit nicht explizit angegebenen Antwortmöglich-
keiten ist die Varianten- oder Aliastoleranz wichtig, d.h. kann der Benutzer ähnliche
Ausdrücke verwenden. Hier spielen regionale, ethnische oder sonstige persönliche Be-
sonderheiten des Dialekts oder der Artikulation eine Rolle (Rügge, Nicolai et al. 2002).
Bereits bei Einwortbefehlen ist die Trefferquote begrenzt. Bei Antwortphrasen oder gar
Fließtext ist eine Erkennung nur nach Training möglich. Der Trainingsanteil liegt vor-
nehmlich bei System, das aufgrund von Referenztexten die Artikulations- und Intonati-
onsbesonderheiten des Benutzers trainiert. Aber auch der Benutzer muss trainieren, in
einer Interaktionssituation angemessen klar zu sprechen, was sowohl die semantischen
Aspekte angeht (das voreingestellte Vokabular zu erlernen), aber auch die Artikulation
und Intonation einheitlich zu produzieren. Beide Trainingsrichtungen, vom System und
vom Benutzer, sind bei gelegentlicher Benutzung von Systemen nicht zu erwarten. Ein
Fahrkartenautomat für Busse und Bahnen kann nicht erst trainiert werden. Aber auch
Stresssituationen sind zu berücksichtigen. Wenn ein System in inneren oder äußeren
Krisensituationen eingesetzt wird, muss die Interaktionsgestaltung Unsicherheit und
Erregung berücksichtigen, d. h. es müssen einfache und eindeutige und vielleicht etwas
kleinschrittigere Dialoge gewählt werden.
Ein weiterer relevanter Faktor für den Interaktionseinsatz von Lautsprache ist die Ab-
stimmung mit anderen Interaktionsmethoden, insbesondere mit visuellen Eingabeauf-
forderungen bzw. Eingabebestätigungen.

In empirischen Tests unseres Usability Kompetenzzentrums von Handydiensten mit
visuellen und sprachlichen Interaktionselementen hat sich dieser Abstimmungsbedarf
deutlich gezeigt. Dabei kommt es auf viele Details an, die gegenwärtig noch nicht in
klaren Richtlinien beschreibbar sind. Es ist aber wichtig, dem Benutzer bei Alternativen
visuell klar zu kommunizieren, ob es sich um ausschließende (Radiobutton) oder mehr-
fach anwählbare Optionen (Checkboxes) handelt. Insbesondere die Annahme der Ant-
worten des Benutzers und der Wechsel zwischen Eingabebereitschaft und Antwortbe-
stätigung muss eindeutig erfolgen. Dies ist besonders bei geteilter Interaktivität mit vi-
suellen Eingabeaufforderungen und visuellen Antwortbestätigungen seitens des Systems
und lautsprachlichen Antworten des Benutzers nicht trivial. Die visuelle Eingabeauffor-
derung kann aus einer Folgen von Elementen (kurze Sätze) oder aus Optionsalternativen
bestehen, die der Benutzer kurzzeitig memorieren muss, während er die Antwort plant
und ausführt, dabei aber das Gerät mit dem eingebauten Mikrofon wegen der geringen
Empfangsreichweite an den Mund führen muss und dabei die Eingabeaufforderung
Sprache und Datenverarbeitung 2 (2005), 169-183.

nicht mehr sieht. Auch die Eingabebestätigung kann er u. U. nicht nachvollziehen, da
die Bestätigung erfolgt, während er noch das Display in der Bewegung des Gerätes vom
Mund nicht wieder einsehen kann. Dies sind Details der Gestaltung, die aber die Nutz-
barkeit multimodaler Interaktionen bei mobilen Anwendungen beeinflussen – erst recht,
wenn äußere Umgebungen die Konzentration des Benutzers und die Verständlichkeit
von lautsprachlichen Produktionen für beide Interaktionsrichtungen, also für den Benut-
zer und für das System beeinträchtigen.

Aus dem EU-Projekt USE-ME.GOV4 zu mobilen Informationsdiensten kommunaler
Behörden für Bürger und private Organisationen können abschließend noch einige Er-
gebnisse zur vergleichenden Evaluation lautsprachlicher und klassischer Interaktions-
methoden in die Beurteilung der lautsprachlichen Interaktionsmodalität einbezogen
werden. In dem Projekt werden Auskunftsdienste über Handys bereitgestellt, für die
unterschiedliche Prototypen mit multimodalen Interaktionstechniken entwickelt und in
empirischen Tests verglichen wurden.

Conclusion
Die Sichtung von Erfahrungen mit Sprache als Ein-/Ausgabemodalität bei mobilen An-
wendungen von Computersystemen hat gezeigt, dass Sprache eine wichtige Option un-
ter verschiedenen anderen Modalitäten ist. Eine alleinige Ein-/Ausgabe und Interaktion
über Sprache kommt als Lösung nicht in Frage. Dazu sind die inhaltlichen, physikali-
schen, technischen und persönlich/sozialen Bedingungen zu verschieden und dyna-
misch. Sprache kann eine Lösung in Verbindung mit anderen sein, auf die im Nut-
zungskontext flexibel zugegriffen werden kann.
In den Projekten, in denen die Sprache als Medium für die Präsentation oder für die
Produktion von Inhalten benutzt wurde, bestand das Problem in der Qualität der
Sprachkonserven und der geeigneten Präsentationssteuerung mittels Audioplayer und
Audiorecorder sowie der Rückkopplung der aktuellen Präsentationssequenz zur Orien-
tierung im Inhaltsraum. Für ungeübte Sprachproduzenten kommt u.U. das sozio-
emotionale Problem hinzu, (halb-) öffentliche Sprachkonserven zu produzieren, wie es
ähnlich bei einem Anrufbeantworter zu beobachten ist.
In den Projekten, in denen die Sprache (auch) zur Interaktionssteuerung des Systems
genutzt wurde, kommen insbesondere bei ungeübten Benutzern Wissens-, Erinnerungs-
und Produktionsprobleme hinzu, damit die richtigen, d.h. vom Systemdesigner imple-
mentierten Steuerungsbefehle adäquate eingesetzt werden. Gerade hier gibt es noch eine
Menge an technischen Aufgaben, die Spracherkennungsalgorithmen zu verbessern, die
Trainingsabhängigkeit zu reduzieren und die Abstimmung zwischen den Eingabeauf-
forderungen, den Eingaben und den Eingaberückmeldungen zu optimieren. Dies gilt
insbesondere bei multimodalen Interaktionsgestaltungen, wenn visuelle, takti-
le/deiktische und lautsprachliche Interaktionen kombiniert werden.

Referenzen

4
    USE-ME.GOV wurde als EU-IST Projekt unter der Vertragsnummer IST-2004-002294 gefördert
Sprache und Datenverarbeitung 2 (2005), 169-183.

Eichstädt, H. (2005). Interaktion blinder Nutzer bei der Bedienung linearisierter Ober-
        flächen. Mensch & Computer 2005, Linz (Österreich), München Wien: Olden-
        bourg.
Furui, S. (2000). Speech Recognition Technology in the Ubiquitous/Wearable Compu-
        ting Environment. Proceedings of the IEEE International Conference on Acous-
        tics, Speech, and Signal Processing (ICASSP), Istanbul, Turkey.
Holman, T. (1999). Sound for Film and Television. Butterworth-Heinemann, Book &
        CD edition.
Karat, C.-M., J. Vergo, et al. (2003). Conversational Interface Technologies. The Hu-
        man-Computer Interaction Handbook. Fundamentals, Evolving Technologies
        and Emerging Applications. J. A. Jacko and A. Sears. Mahwah (NJ), Lawrence
        Erlbaum Associates: 169-186.
Kravcik, M., A. Kaibel, et al. (2004). "Mobile Collector for Field Trips." Educational
        Technology & Society 7 (2): 25-33.
Nievergelt, J. (1983). Die Gestaltung der Mensch-Maschine-Schnittstelle. In: Ingbert
        Kupka (Hrsg.): GI - 13. Jahrestagung. Berlin u.a.: Springer-Verlag, S. 41-50.
Normand, V., D. Pernel, et al. (1997). "Speech-Based Multimodal Interaction in Virtual
        Environments: Research at the Thomson-CSF Corporate Research Laborato-
        ries." Presence 6(6): 687-700.
Oppermann, R. (2005). "Context-adaptive Information Systems." i-com.
Oppermann, R. und M. Specht (1999). "A Nomadic Information System for Adaptive
        Exhibition Guidance." Archives and Museum Informatics. Cultural Heritage In-
        formatics Quarterly 13(2): 127 - 138.
Rügge, I., T. Nicolai, et al. (2002). Computer im Blaumann: Blue Collar Computing.
        Proceedings of the Useware 2002. Mensch-Maschine-Kommunikation/Design,
        Darmstadt 11.-12. Mai, Düsseldorf: VDI Verlag.
Schmidt, L., S. Wiedenmaier, et al. (2005). Benutzerzentrierte Gestaltung von Aug-
        mented Reality in der Produktion. Mensch & Computer 2005, Linz (Österreich),
        München Wien: Oldenbourg.
Zimmermann, A. und A. Lorenz (2005). "Creating Audio-Segmented Environments."
        Journal of Pervasive Computing and Communication 1(1): 15-26.
Sie können auch lesen