Zeichen & Gebärden Seminar Kommunikation: Das Miteinander von Mensch und Maschine
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Universität Bielefeld Technische Fakultät Seminar Kommunikation: Das Miteinander von Mensch und Maschine Zeichen & Gebärden Nadine Leßmann Thomas Plötz nlessman@techfak.uni-bielefeld.de tploetz@techfak.uni-bielefeld.de Alexander Rüegg Jörg Waltemathe arueegg@uni-bielefeld.de jwaltema@techfak.uni-bielefeld.de Bielefeld, August 2000
INHALTSVERZEICHNIS 2 Inhaltsverzeichnis 1 Einleitung 3 2 Gebärdensprache 3 2.1 Geschichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Eigene Sprache? – Pro und Contra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3 Grammatik (DGS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.4 Strukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3 Kommunikationssysteme 7 3.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4 Hörhilfen 7 4.1 Hörgeräte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4.2 Implantate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4.2.1 Funktion (Siemens-Vibrant Soundbridge) . . . . . . . . . . . . . . . . . . . . . . . 8 4.2.2 Projekt bei der EXPO 2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.3 Gebärdenerkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.3.1 Prinzipien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4.3.2 Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.3.3 Vor- und Nachteile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.4 Gebärdenerzeugung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.4.1 Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.5 Lippenlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.5.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.5.2 Aufbau des Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.5.3 Praktischer Einsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 5 Zusammenfassung 20 A Beispiele der DGS 22
1 EINLEITUNG 3 1 Einleitung Seit Jahrhunderten sind Möglichkeiten der Kommunikation über Lautsprachen hinaus bekannt. Gehörlose benutzen Zeichen- und Gebärdensprachen weltweit um miteinander zu interagieren. Dabei handelt es sich um vollwertige Sprachen im linguistischen Sinn. Im Rahmen des Seminars Kommunikation: Das Miteinander von Mensch und Maschine” sollen die ” Chancen und Möglichkeiten der Kommunikation über Zeichen- und Gebärdensprachen untersucht werden. Dazu werden im ersten Teil theoretische Aspekte der Gebärdensprachen untersucht mit Berücksichtigung ihrer Geschichte. Aufgrund ihrer Komplexität ist die Realisierung gebärdenverstehender Systeme in nä- herer Zukunft nicht zu erwarten. Im zweiten Teil der Ausarbeitung werden derzeit gängige technische Systeme zur Gebärdenerkennung bzw. -produktion vorgestellt. Diese stellen Hilfsmittel für Gehörlose bei der Erlernung der Zeichen- bzw. Gebärdensprache dar. Weiterhin sind sie Stationen auf dem Weg zu tatsächlich gebärdenerkennenden Systemen. Diese ermöglichen Gehörlosen in der ihnen natürlichen Art und Weise, mit Maschinen zu kommunizieren. Als weitere Hilfsmittel für Gehörlose werden Hörimplantate vorgestellt sowie deren Chancen und Grenzen diskutiert. 2 Gebärdensprache 2.1 Geschichte Die Geschichte der Gebärdensprache ist vermutlich so alt wie die Geschichte der Menschheit selbst. Spärliche Überlieferungen alter Kulturen lassen dies erahnen. Es steht zu vermuten, daß zu allen Zeiten Menschen mit eingeschränktem Hör- bzw. Sprechvermögen eigene Kommunikationsstrukturen entwickel- ten und auch benutzten. Der in diesem Kapitel dargestellte geschichtliche Abriß konzentriert sich jedoch ausschließlich auf die Zeit, in der der Problematik Gebärdensprache“ nennenswertere Aufmerksamkeit ” zuteil wurde. Es wird sich dabei vor allem auf [1] bezogen. • 16. Jahrhundert – Geronime Cardano, ein italienischer Physiker stellt fest und postuliert: Taube ” Menschen können geschriebene Sprache, repräsentiert durch ihre Symbole, lernen“. Diese Feststel- lung behandelte zum ersten Mal die Problematik der Kommunikation tauber Menschen in einer objektiven und nicht abwertenden Art und Weise. Bis dahin wurde das Phänomen der Gebär- densprache entweder nicht wahrgenommen oder verächtlich die Sprache als Affensprache“ etc. ” abgewertet. • 1620 – Juan Pable de Bonet bringt das erste Lehrbuch über ein ’manuelles’ Alphabet für Taube heraus. • 1755 – Charles Michel de Laepee, ein Pariser Abt gründet die erste freie Gehörlosenschule. Basis der Lehrmethoden war die Gestenkommunikation der, damals offensichtlich zahlenmäßig relevanten, Gehörlosengemeinde in Paris. Er übernahm von ihnen ihr System konventioneller Gesten, Hand- zeichen und Fingerstellungen. Für noch nicht erfasste Begriffe, Redewendungen etc. entwickelte er über die Adaption des gesprochenen Französisch eine beinahe umfassende Gebärdensprache. • 1778 – Samuel Heinicke gründet in Leipzig die erste staatlich anerkannte Gehörlosenschule. Dort lehrte er Sprache und Sprachverstehen. • 19. Jahrhundert – Mit den beiden Strömungen innerhalb der Lehre der Gehörlosensprache (Frank- reich und Deutschland) erfuhr die Gebärdensprache zumindest in Europa eine sehr rasche und weite Verbreitung im 18. Jahrhundert. Mitte des 19.Jahrhunderts erfolgte jedoch eine Zäsur und die ver- breitete Meinung bzgl. der Gebärdensprache war nicht die einer entwickelten Sprache sondern einer Art Pantomime oder bestenfalls einer Ansammlung von Gesten, die nur einfache, konkrete Zusam- menhänge ausdrücken können. – Die Gebärdensprache stehe einer Integration der Gehörlosen in ” die Gesellschaft im Weg.“
2 GEBÄRDENSPRACHE 4 • ab 1960 – Es erfolgte eine Umdenken, initiiert von der linguistischen Forschung in den USA. Man kam zu der Einsicht, daß die Gebärdensprache eine natürliche Sprache mit einer eigenen Struktur darstellt. Wer sie gut beherrscht, kann sich ebenso komplex und abstrakt ausdrücken wie in der gesprochenen Sprache. Sie ist zudem mit dem Selbstverständnis der Gehörlosen und ihrer Kultur eng verbunden. Die im 18. Jahrhundert entwickelten Methoden sind die Basis für die heutige Kommunikation Hörende Taube. In Amerika fanden die meist europäischen Siedler teilweise weit entwickelte indianische Zeichenspra- chen vor, die eindeutig und offensichtlich gut benutzbar waren. Dennoch wurden viele europäische Ansätze in dortigen Gehörlosenschulen übernommen (z.B. literal art college - Washington D.C.“). Die indianischen ” Ansätze wurden im Folgenden beinahe komplett unterdrückt. Heute existiert dort eine recht gut entwickel- te Sprache, die vor allem auch von vielen Hörenden praktiziert wird. Dadurch kommt es zur Übernahme von sprachlichen Strukturen der Lautsprache in die US-amerikanische Gebärdensprache (American Sign Language). 2.2 Eigene Sprache? – Pro und Contra In diesem Abschnitt soll die Argumentation zur Gebärdensprache als eigene Sprache in ihren Pro- und Contraargumenten überblicksweise dargestellt werden. Es wird sich dabei im Wesentlichen auf die Aus- führungen in [2] bezogen. Contra • Gebärdensprachen werden hauptsächlich fehlende Merkmale von Sprache“ (Phonologie, Morpholo- ” gie, Syntax) vorgeworfen. Die Chereme1 besitzen im Gegensatz zu Phonemen keine Distinktivität, stattdessen haben sie einen eher ikonischen Charakter. • Die vermeintlich mangelnde Leistungsfähigkeit der Gebärdensprache impliziert eine geringere Viel- seitigkeit. Pro • Gebärdensprachen beinhalten tatsächlich vorhandene sprachliche Strukturen z.B. Grammatik – vgl. dazu 2.3. • Ein intuitives Argument pro eigener Sprache ist die tatsächliche Möglichkeit der Kommunikation mit Hilfe einer Gebärdensprache. Derartige Sprachen integrieren mehrere Sprachinstrumente (Gestik, Mimik . . . ), ermöglichen eine intuitive Gebärdenfindung und bieten als Basiskomunikationsmittel das Fingeralphabet. Diskussion Beinahe sämtliche Gegenargumente basieren auf der Prämisse der Gleichsetzung von Sprache“ und Laut- ” ” sprache“. Es wird versucht, die für lautsprachliche Strukturen geltenden Gesetzmäßigkeiten 1:1 auf Ge- bärdensprachen anzuwenden. Die speziellen Contraargumente liegen in der Natur der Argumentation. Laut [2] bilden hauptsächlich wissenschaftliche Defizite die Grundlage der Argumentation contra ei- gener Sprache. Es wird darauf hingewiesen, daß mangelndes Wissen vorurteilsfreie Argumentation nicht zuläßt. Beispielsweise erfolgt eine verbreitete Leugnung der Möglichkeit von Bilingualität von Menschen und es herrscht häufig Unverständnis gegenüber einer sprachlichen Minderheitensituation. 1 Chereme entsprechen in Zeichensprachen den Phonemen der Lautsprachen – sie bilden die kleinsten bedeutungsunter- scheidenden Einheiten.
2 GEBÄRDENSPRACHE 5 2.3 Grammatik (DGS) An dieser Stelle werden die sechs wesentlichsten Merkmale der Grammatik der Deutschen Gebärdenspra- ” che“ (DGS) illustriert. Diese Merkmale sind darüberhinaus Merkmale einer Sprache im herkömmlichen Sinne, womit die Proargumentation aus Abschnitt 2.2 genährt wird. Einige Beispiele für spezielle Gebär- den, an denen die nachfolgend dargestellten grammatikalischen Merkmale nachzuvollziehen sind, finden sich in Anhang A. Tempus: Über eine imaginäre Zeitlinie im Gebärdenraum werden sowohl allgemeine als auch punktuelle Zeitangaben an erster Stelle der Syntaxfolge angegeben. Im Unterschied zur Lautsprache behält die Tempusangabe ihre Gültigkeit bis zur folgenden Zeitgebärde. Inkorporation: Ergänzende Informationsgaben werden in einer Grundgebärde mitausgedrückt (Boot- Fahren, 4-Wochen). Simultanität: Zwei (oder mehr) Handlungen werden im Gebärdenzeichen (Hände, Mimik) gleichzeitig ausgeführt – Vorteil der Dreidimensionalität! (z.B.: ’Beim Zeitungslesen wird der Kaffee umgerührt und schließlich getrunken.’) Direktionalität: Betreffende Personen oder Dinge werden im Gebärdenraum lokalisiert und anschlie- ßend festgelegt (Zeigefunktion). Lokalität: Betreffende Personen oder Dinge werden an bestimmten Stellen im Gebärdenraum lokalisiert und anschließend über eine Zeigefunktion, d.h. eine Referenz auf einen festen Ort im Gebärdenraum, festgelegt. Simultane Mimik: Die Realisierung von Steigerungen und Satztypen (Aussage, Frage, Verneinungen etc.) erfolgt über die Mimik. 2.4 Strukturen In diesem Abschnitt sollen einige interessante Fakten bzgl. der Strukturen einer Gebärdensprache am Beispiel der Deutsche Gebärdensprache“ (DGS) festgemacht werden. Die Abbildungen im Anhang illu- ” strieren diese. • Numerus: durch Zahlen- bzw. Mengenangaben oder Wiederholungen • Mimik: - für Satzaufbau (Frage, Bitte . . . ) - als Ausdruck der Gefühle - als Ausdruck für Größenordnungen und Dimensionen • spezielle Gebärden – Idiome, z.B. Solidarität, nach Hause gehen, Klatschen usw. • Mundbild: Nachahmung der visuell wahrnehmnbaren Lippenbewegungen, die Wörter der gespro- chenen Sprache zugeordnet sind • Hände nicht im Sinne einer konkreten pantomimischen Nachahmung der Wirklichkeit benutzt – stattdessen Handzeichen nach klaren Regeln gebildet • Gebärdenzeichen meist aus Teilelementen Mit einer begrenzten Zahl von Elementen und Regeln kann eine unbegrenzte Zahl von neuen Zeichen und Sätzen erzeugt werden – dies ist das Argument für das Vorhandensein einer ‘Sprache’ im linguistischen Sinn: • Handform (Faust, Zeigefingerhand, Schwurhand)
2 GEBÄRDENSPRACHE 6 Mimik Augenausdruck Augen Blickrichtung Gesicht Mundgestik Mund Mundbilder Handform Handstellung Struktur d. Gebärden Ausführungsstelle Bewegung Hände Symmetrieform Mittelform Sprachinstrument zweihänd. Gebärden Dominanzform Zweihand-Komplex Kopf Körperhaltung Schultern Oberkörper Blickrichtung Deiktik Kopfrichtung Zeigen der Hände Thema Kontext Person Situation Abbildung 1: Sprachinstrumente der DGS • Handstellung (z.B.: Zeigefingerhand – Handrücken nach oben, unten, vorne oder zum Körper) • Ausführungsstelle (Handzeichen vor Brust, Kopf, an Schulter etc.) • Bewegung (Richtung, Geschwindigkeit, Intensität, Dauer)
3 KOMMUNIKATIONSSYSTEME 7 3 Kommunikationssysteme 3.1 Motivation Angesichts der Probleme von Gehörlosen mit Lautsprache bzw. Lautschrift tritt die Entwicklung von Kommunikationssystemen für Gehörlose zunehmend ins Interesse von Forschungsgruppen und Unterneh- men. Zunächst wurden große Anstrengungen unternommen eine Notationsmöglichkeit für Gebärden, also ei- ne Gebärdenschrift, zu entwickeln. Hier ist vor allem das System SignWriting zu nennen. Der Großteil der Gehörlosen ist nicht komplett taub. Die Einstufung gehörlos“ gilt ab einem bestimmten Prozentsatz ” Resthörvermögen. Für Gehörlose mit Resthörvermögen wurde eine breite Palette an Hörhilfen entwickelt. Die Erkennung von Gebärden wird in Deutschland vor allem von der RWTH Aachen vorangetrieben, an der bereits mehrere Erkennungssysteme entwickelt wurden. Diese sollen schließlich als Übersetzungssy- steme zur Verbesserung der Kommunikation zwischen Gehörlosen und Hörenden ausgebaut werden. Zum Erlernen von Lautsprache können sogenannte Lippenlese-Tools dienen, die in den USA bereits eingesetzt werden. Zuletzt soll nicht unerwähnt bleiben, daß auch Systeme für das Erlernen des Fingeralphabets existieren. Im Folgenden sollen einige technische Systeme vorgestellt werden, die die oben angesprochenen Ziele verfolgen. 4 Hörhilfen 4.1 Hörgeräte Heute gibt es alleine in Deutschland gibt es mehr als 2.000.000 Hörgeschädigte. Doch dies ist kein neu- zeitliches Phänomen. Um diesen Menschen zu helfen, versuchte man Geräte zu entwickeln, die das Hören dennoch ermöglichen bzw. verbessern konnten. Angefangen hat alles mit dem Hörrohr, welches wie ein Trichter konzipiert war und eigentlich nur eine Vergrößerung der Ohrmuschel darstellte. Dadurch wurden die Schallwellen gebündelt. Auch war dies ein primitiver Vorläufer des Richtmikrofons, denn man konnte die Trichteröffnung ja auf die Schallquelle richten. Im Zeitalter der Elektronik hatte man dann Geräte entwickelt, die am Gürtel getragen wurden und alle Geräusche elektronisch verstärkt zu einem Ohrhörer leiteten. Im Rahmen der Miniaturisierung von Elektronik konnte man dann komplette Geräte am oder im Ohr tragen. Hier unterscheidet man zwischen fünf Typen: • CIC - ’Complete in the Canal’ (Komplett im Gehörgang) Dieses sehr kleine Hörgerät wird tief im Gehörgang getragen und ist deshalb ’nicht zu sehen’. Um es zu entfernen hat es einen kleinen Nylonfaden an dem man es herausziehen kann. Es ist geeignet für leichte bis mittlere Hörverluste. • CS - Halbconchagerät (Gehörgangsgerät Diese Geräte befinden sich am Beginn des Geörganges. Es kann eine höhere Verstärkung erreicht werden. Geeignet für mittlere Hörverluste. • CT (Gehörgangsgerät) Dieses Modell wird benutzt wenn die kleineren Geräte im täglichen Umgang nicht angezeigt sind. • IT - Concha-Gerät Die ganze Ohrmuschel ist ausgefüllt. Für größere Hörverluste geeignet.
4 HÖRHILFEN 8 • HdO - Hinter-dem-Ohr Diese Geräte sind so stark, daß sie auch bei starken Hörverlusten eingesetzt werden. Ebenso bei Hautproblemen und Hautunverträglichkeiten. Bei Geräten der neusten Generation, die äußerlich so aussehen wie die oben beschriebenen, hat die Technik dazu beigetragen, daß sogar kleine Computer in den Geräten untergebracht werden konnten. Das hat folgende Vorteile: • Automatische Lautstärkeanpassung. • Man kann zwischen einem Kugel- und Richtmikrofon umschalten, welches bei Konzerten sehr nütz- lich ist. • Bei einigen Geräten kann man sogar HiFi-Geräte, wie CD-Player anschließen. • Ein Interface für den Hörgeräteakustiker, der so die Geräte auf die individuellen Bedürfnisse des Trägers anpassen (programmieren) kann. • Ein integrierter 8-Band-Equilizer der genau die Frequenzen verstärken kann, die benötigt werden. Dies ist sinnvoll, da viele Hörgeschädigte nur unter dem Verlust bestimmter Frequenzbereiche leiden. • Rückkopplungspfeifen wird erkannt und unterdrückt. Das kann auftreten, wenn die verstärkte To- nausgabe so laut ist, daß das Mirkrofon sie wieder aufnimmt und weiter verstärkt. • Die gehörte Sprache wird gefiltert, so daß störender Umweltlärm nicht mehr wahrgenommen wird. (Der sog. Umweltlärm wird in der Lautstärke nur abgesenkt, nicht gelöscht) Diese Geräte berechen insgesamt 64 Parameter (Frequenzspektum, Lautstärke, Sprache, usw.) um die oben genannten Fähigkeiten möglich zu machen. Dies schaffen sie in einer Geschwindigkeit von 8 Mio Recheneinheiten/sek. Die hohen Anforderungen an die Hardware ziehen natürlich einen hohen Stromverbrauch mit sich, welches der Grund ist, warum eine Knopfzelle nur 7-10 Tage hält. 4.2 Implantate Implantate sind angezeigt, wenn der Träger Hautunverträglichkeiten mit den oben genannten Geräten feststellt. Ebenso kann es sein, daß der Träger stark Schwitzt oder übermäßig viel Sekret bildet und es dadurch nicht möglich ist Im-Ohr-Geräte zu verwenden. 4.2.1 Funktion (Siemens-Vibrant Soundbridge) Implantate bringen die Gehörknöchelchen direkt zum Schwingen. Diese Schwingungen können optimal auf die Bedürfnisse des Hörgeschädigten abgestimmt werden. Der normale Weg des Schalls über den Gehörgang und das Trommelfell bleibt frei. Dies ermöglicht eine natürlichere Klangqualität und erhöhten Tragekomfort. Siehe Abbildung: Implantat Direkt an einem der Gehörknöchelchen (Amboss) befestigt, versetzt das Implantat die Gehörknöchel- chenkette auf mechanische Weise in Schwingungen - ähnlich wie der Schall, der das Ohr durchläuft und die Knöchelchen mit Hilfe des Trommelfells zum Schwingen bringt. Diese akustischen Schwingungen wer- den elektronisch verstärkt, um den Empfindlichkeitsverlust des Innenohres auszugleichen.
4 HÖRHILFEN 9 Abbildung 2: Hörhilfen
4 HÖRHILFEN 10 Abbildung 3: Hörhilfen
4 HÖRHILFEN 11 Das Gerät besteht aus einem äußeren und einem inneren Teil. Der äußere Teil ist der Audio Prozessor, der mit einem Magneten am Kopf unter dem Haar angebracht wird. Er enthält das Mikrofon, die Batte- rie sowie die Elektronik zur Umwandlung des Umgebungsschalls in ein Signal, das an den implantierten Empfänger gesendet wird. Der implantierte Teil besteht aus dem internen Empfänger, dem Magneten, dem Leitungskabel und dem Floating Mass Transducer (FMT). Das Signal des Audio Processors wird durch die Haut zum internen Empfänger gesendet, der das Signal über das Leitungskabel zum FMT weitergibt. Der FMT ist am Amboß befestigt, einem der drei Knöchelchen des Mittelohrs. Der FMT verwandelt das Signal in Schwingungen, die die Gehörknöchelchen direkt antreiben und bewegen, ähnlich wie sie vom normalen Schall über den Gehörgang bewegt werden. Diese Schwingungen geben den Schall zum Innenohr und zum Gehirn weiter. Weitere Informationen zu Fachhändlern sowie eine Reihe von Fragen, die, wenn man sie selbst beantwortet Aufschluß geben, ob man Hörgeschädigt ist findet man im Internet unter http://www.hoergeraete.siemens.de 4.2.2 Projekt bei der EXPO 2000 Der 1988 erstmals bei einem Kind vorgenommene operative Einsatz hat in der Rehabiltationsphase ge- zeigt, daß insbesondere bei Kleinkindern ein spezielles Konzept für die Rehabilitation erforderlich ist. Um diesem Anspruch Folge zu leisten, wurde 1990 in Hannover das Cochlear-Implant-Centrum ”Wilhelm Hirte” (CIC Hannover) ins Leben gerufen. Dort wird den tauben Kindern beigebracht, zu sprechen, zu verstehen und Geräusche wahrzunehmen. Das Unterscheiden und Erkennen von Geräuschen, sprachlichen Lauten und einzelnen Wörtern bis hin zur akustischen Handlungssteuerung wird trainiert. Verläuft die Rehabilitations-Phase nach Plan, kann das anfangs taube Kind wieder normal hören und einen angegli- chenen Spracherwerb aufweisen. Das CIC ist ein eigenständiges Institut unter der Trägerschaft der Stiftung Hannoversche Kinder- heilanstalt. Insbesondere bei ertaubten oder taubgeborenen Kindern, bei denen trotz früher Hörgerä- teversorgung und audio-verbaler Erziehung keine Verbesserung des auditiven Wahrnehmungsvermögens aufgetreten ist, könnte ein Implantat hilfreich sein. Die Rehabilitation besteht aus: • Anpassung des Sprachprozessors und Evaluation; • audio-verbale Erziehung; • Wahrnehmungsschulung motorische Schulung; • Verhaltenserziehung und Entwicklung der Kreativität; • Elternarbeit; • medizinische Nachsorge; • Langzeitbetreuung; • Kontakte. Projektträger: Deutsche Cochlear Implantat Gesellschaft e.V. http://www.hannover.de/deutsch/tourist/weltauss/welt han/exponate/cochlear.htm 4.3 Gebärdenerkennung 4.3.1 Prinzipien Ansätze für die Wahrnehmung von Gebärden
4 HÖRHILFEN 12 Wie in der Diskussion der Gebärdensprache deutlich wurde, gibt es bei der Gebärdenaufnahme zwei Teilproblembereiche. Zum einen die Erkennung der Gestik und zum anderen die Erkennung der Mimik. Bei beiden sind unterschiedliche Lösungsansätze denkbar. Wie später noch deutlich wird ist die Erken- nung per Video im allgemeinen zu bevorzugen. Die bisherigen in der Entwicklung befindlichen Systeme zur Wahrnehmung“ von Gebärden benutzen zu ” ihrer Realisation Videoaufnahmen und/oder gerätebasierte Aufnahmetechniken. Dabei bezeichnet gerä- ” tebasiert“ am Körper angebrachte Meßsensorik, in der Praxis meist Aufnahmegeräte die als Datenhand- ” schuh“ bezeichnet werden (siehe Abbildung 8). Es sind drei Szenarien zur Aufnahme von Gebärden denkbar: • videobasierte Erkennung von Mimik und Gestik • Video-Aufnahme der Mimik, gerätebasierte Aufnahme der Gestik • gerätebasierte Aufnahme der Gestik Letztere läßt allerdings die für Gebärdenerkennung wichtige Mimik zur Vereinfachung außen vor. Maschinelle Lernmethoden Gebärdenerkennung ist im Bereich der Informatik als Musterkennungsproblem einzuordnen: für die Re- präsentation einer Gebärde (die Sensordaten, e.g. eine Videoaufnahme) wird ihre Bedeutung gesucht. Durch die Fülle der möglichen Repräsentationen wird ein Automatismus notwendig, der zu einer Reprä- sentation möglichst die richtige Bedeutung findet. Dazu verwendet man maschinelle Lernmethoden. Im Falle der Gebärdenerkennung sind dies meist Neuronale Netze oder Hidden Markov Modelle. Schwierigkeiten und Anforderungen Die Erkennung von Gebärden stellt einige Anforderungen an das Erkennungssystem, die erfüllt wer- den müssen, um ein korrektes Arbeiten zu gewährleisten. Wie in der Einleitung bereits erläutert, müssen beide Hände in die Betrachtung mit einbezogen werden. Es gibt zwar eine dominante Hand, die andere ist aber trotzdem nicht vernachlässigbar. Gebärden kön- nen außerdem links-“ bzw. rechtshändig“ ausgeführt werden. Da Gebärden im dreidimensionalen Raum ” ” stattfinden kommt es eventuell zu Überdeckungen einzelner Körperbereiche, die eine Erkennung erschwe- ren. Es stellt sich auch die Frage, ob nicht die zweidimensionale Darstellung von Gebärden ausreichend ist, da die Ausweitung auf ein 3D-Modell mit Hilfe einer Stereokamera einen erheblichen Mehraufwand und ein wesentlich größeres Datenaufkommen bedeuten würde. Hinzu kommt, daß sich eine Gebärde durch eine zeitliche Abfolge von Bewegungen ergibt. Somit muß für die Erkennung eine Sequenz von Bildern betrachtet werden. In der Einleitung wurde bereits angesprochen, daß für die Auswertung die Mimik des Gebärdenden mit einbezogen werden muß . Die wesentlichen Schwierigkeiten und Anforderungen bei der Gebärdenerkennung sind nachfolgend zu- sammengefaßt: • Beide Hände müssen betrachtet werden. • Mimik muß in die Auswertung mit einbezogen werden. • Überdeckungen der einzelnen Körperbereiche müssen berücksichtigt werden. • Eine Bildsequenz ist für die Erkennung einer Gebärde notwendig. • Kommunikation besteht aus zeitlich zusammenhängenden Gebärden. • Gebärden sind dreidimensional.
4 HÖRHILFEN 13 4.3.2 Systeme Es sind bereits eine Vielzahl von Systemen zur Gebärdenerkennung entwickelt worden bzw. finden sich in Entwicklung. Im folgenden soll eine exemplarische Auswahl vorgestellt werden. Dabei handelt es sich um ein rein videobasiertes Erkennungssystem und ein gerätebasiertes System. SignPS / SignRec An der RWTH Aachen wurde seit 1994 von Britta Bauer das System SignPS ([3]) entwickelt mit dessen Hilfe es ermöglicht wird isolierte Gebärden zu erkennen. Ein Ziel war dabei die Eingabe und Notation von Gebärden zu erreichen. Dazu wurde ein Zeichensatz zum Druck bzw. schriftlichen Notieren von Gebärden entwickelt. Die Aufnahme erfolgt mit einer Videokamera. Dabei erfaßt nur eine Kamera den gesamten Gebärdenraum, also sowohl manuelle Ausdrucksmittel (Handform, Ausführungsstelle, Handstellung, Handbewegung) als auch nicht-manuelle Ausdrucksmittel (Kopf, Oberkörper, Blickrichtung, Gesichtsausdruck, Mundbild). Als Vereinfachung wurde zunächst der Schwerpunkt auf die Erkennung der Chereme der dominanten Hand gelegt. Die Erkennung läuft dabei in Echtzeit ab. Um die Datenmenge einzuschränken muß das System nicht das gesamte Bild analysieren, sondern lediglich farbige Markierungen, die der Benutzer an einem Handschuh, sowie am Ellenbogen trägt. Für den nächsten Schritt, die Erkennung der Parameter der nicht-dominanten Hand, wird ein zusätzlicher Handschuh und wieder eine Markierung am Ellenbogen notwendig sein. Die Erkennung läuft in mehreren Schritten ab: 1. Segmentierung → Körperumriß , hautfarbene Regionen, farbige Flächen der Handschuhe, Ellenbo- genmarkierung 2. Merkmalsextraktion → Koordinaten der Schultern und Augen, Merkmale für farbige Regionen (Flächengröße, Schwerpunkt, Kontakt zweier Flächen, usw.) 3. Vorklassifikationsschritt I: Vergleich mit Handformprototypen (werden in Trainingsschritt aus meh- reren Handstellungen ermittelt) 4. Vorklassifikationsschritt II: Zuordnung der Handposition zu Körperbereichen 5. Vorklassifikationsschritt III: Bewegungserkennung 6. Klassifikation → Erkennung der Gebärde Das System erzielt je nach verwendeter Gebärdendatenbank (jeweils mit 300 Gebärden) Erkennungsraten zwischen 40% (Standarddatenbank) und 100% (benuterabhängige Datenbank). Die Abbildungen 4 und 5 zeigen die Funktionsweise von SignPS. Das System SignRec ([4]) wurde von Hermann Hienz an der RWTH Aachen entwickelt und kann als Erweiterung von SignPS gesehen werden. Ziel war dabei die Erkennung kontinuierlicher Gebärdenspra- che. Die Erkennung erfolgt mittels Hidden Markov Modellen kombiniert mit einem Gebärdensprachmo- dell. Die Benutzung des statistischen HM-Modells wird notwendig, da sich Gebärden selbst bei ein und demselben Gebärdenden unterscheiden. Diese Variabilität kann angemessen durch statistische Modelle repräsentiert werden. Mögliche Einsatzfelder für SignRec sind Übersetzer oder Lernsysteme. Abbildung 6 zeigt den Aufbau von SignRec. GRASP GRASP ([5]) benutzt zur Erkennung einen Datenhandschuh. Begründet wird dies mit der Vielzahl an
4 HÖRHILFEN 14 Abbildung 4: Aufbau von SignPS (Quelle: [3]) Abbildung 5: Videobasierte Erkennung der manuellen Parameter einer Gebärde (Quelle: [3])
4 HÖRHILFEN 15 feinen Bewegungsmöglichkeiten der Hand und dem hohen Datenaufkommen bei der Videoaufnahme. Ent- wickelt wurde es von Waleed Kadous an der Universität von New South Wales 1995. Das System erkennt 94 verschiedene Gebärden der Australian Sign Language mit 80% Erkennungsrate. Ziel war es dabei ein Gebärdenlexikon und als Fernziel einen Übersetzer zu erstellen. Waleed sieht im Datenhandschuh vor allem den Vorteil, weniger Rechenpower zu benötigen und durch den Wegfall der komplexeren Bild- auswertung schnellere Systeme bauen zu können. Das System nutzt symbolische und instanzen-basierte Lernalgorithmen zur Erkennung. Die Abbildungen 7 und 8 zeigen den Aufbau von GRASP und die Benutzung des Datenhandschuhs. Wearable Computer Based ASL Recognizer Thad Starner vom MIT entwickelte ein Erkennungssystem für die amerikanische Gebärdensprache ASL ([6]). Dabei nutzt er wahlweise eine auf einer Baseball-Mütze oder eine am Arbeitsplatz montierte Ka- mera als Aufnahmegerät. Als Lernmethode nutzt er ein Hidden Markov Modell für jede Gebärde. Der Schwerpunkt seiner Arbeit liegt auf der Unabhängigkeit eines Nutzers von einem speziellen Arbeitsplatz (der speziell für die Aufnahme von Gebärden vorbereitet und kalibriert ist) und der Aufnahme des Ge- bärdenden ohne Markierungen oder ähnlichem. Die auf der Baseball-Mütze montierte Kamera fokusiert dabei die Hände des Tragenden. Hier liegt auch ein Nachteil dieser Methode: die nicht-manuellen Aus- drucksmittel des Gebärdenden sind außen vor. Dennoch erkennt sein System 95% eines 40 Gebärden großen Lexikons. Abbildung 9 zeigt das System von Starner. 4.3.3 Vor- und Nachteile Wie bei den einzelnen Systemen deutlich wurde, hat jeder Ansatz seine Vor- und Nachteile. Zunächst sind noch einmal kurz die Schwächen, anschließend die Stärken zusammengefaßt: Nachteile • Videobasierte Erkennung: – eingeschränkter Wortschatz → können alle Gebärden erkannt werden? (Stichworte 3D-Welt, Stereokamera, Blickwinkel) – immenser Rechenaufwand • Gerätebasierte Erkennung: – Benutzer ist an Geräte gebunden – Unterschiedliche physische Merkmale der Benutzer Vorteile • Videobasierte Erkennung: – keine an Benutzer gebundene Geräte – Benutzer kann ”normal” gebärden • Gerätebasierte Erkennung: – direkte Umsetzung der Gebärden in Daten – ressourcenschonend
4 HÖRHILFEN 16 Abbildung 6: Aufbau von SignRec (Quelle: [4]) Abbildung 7: Aufbau von GRASP
4 HÖRHILFEN 17 Abbildung 8: GRASP in Aktion Abbildung 9: Die auf einer Baseball-Mütze montierte Kamera und ihr Blickwinkel
4 HÖRHILFEN 18 4.4 Gebärdenerzeugung Die Erzeugung von Gebärden richtet sich meist auf die Darstellung eines dreidimensionalen Oberkörpers mit Kopf und Händen. Ziel sind dabei multimediale Lexikas oder umfassendere Lernhilfen. 4.4.1 Systeme Fingerspelling Fingerspelling bezeichnet das Buchstabieren durch Handzeichen (siehe Abbildung 19). Es setzt also die Buchstaben der Lautsprache in visuelle Zeichen um. Vor allem die Kommunikation ungeübter Hörender mit Gehörlosen wird durch die Möglichkeit des Buchstabierens erleichtert. Fingerspelling ist bei Gehör- losen wenig verbreitet. Das vorgestellte System ermöglicht es eigene Handstellungen zu erzeugen und abzuspeichern. Über die in Abbildung 10 gezeigte Web-Oberfläche können Wörter eingegeben werden, die anschließend in der Grafik-Ausgabe buchstabiert werden. 3DSign Ziel dieses Projektes ist die Entwicklung eines computer-unterstützten Trainingssystems für Gebärden- sprache zu entwickeln. Mit dessen Hilfe soll es möglich sein Gebärden aufzuzeichnen, zu editieren und schließlich zu visualisieren. Das Projekt wird an der Polytechnischen Universität von Oberösterreich in Hagenberg umgesetzt ([7]). Zur Aufnahme von Gebärden werden Datenhandschuhe verwendet. Die aufgenommenen Gebärden werden in ein 3D-Modell konvertiert in einer Datenbank gespeichert und an- schließend mit einer kommerziellen 3D-Grafiksoftware in eine Lernumgebung integriert. Die Gebärde- nanimationen können dabei aus einem beliebigen Blickwinkel und in Einzelschritten betrachtet werden. Diese Art der Interaktion erweitert den Nutzen der Lernsoftware erheblich. Letztendlich ist dies auch der Grund dafür, daß die bis dato integrierten Videos durch Animationen ersetzt wurden. Abbildung 11 zeigt die Oberfläche des Lexikon mit integrierter Gebärdenanimation. 4.5 Lippenlesen Wie eingangs beschrieben ist lediglich ein geringer Teil der Gehörlosen vollständig taub. Für den Großteil bietet Lippenlesen eine ergänzende Hilfe für die Kommunikation. 4.5.1 Übersicht Das CSLU-Toolkit des Oregon Graduate Institute bietet die Möglichkeit eigenständige Anwendungen im Bereich der Sprachverarbeitung und Visualisierung zu erstellen. Hier soll daraus nun BaldiSync vorgestellt werden mit dessen Hilfe an der Tucker-Maxon-Oral-School Lippenlesen unterrichtet wird. Entwickelt wurde das System seit 1997 am C enter for S poken Language U nderstanding (CSLU) at Oregon Graduate Institute unter Mitwirkung des P erceptual S cience Laboratory (PSL) at the University of California at Santa Cruz. 4.5.2 Aufbau des Tools BaldiSync besteht aus vier Teilen: • 3D Gesichtsanimation (Baldi) • Sprachgenerierung (text-to-speech) • akustische Spracherkennung (→ Kontrolle) • videobasierte visuelle Spracherkennung (← Lippenlesen + Mimik)
4 HÖRHILFEN 19 Abbildung 10: Die Web-Oberfläche zum Buchstabieren von Wörtern Abbildung 11: Das Lexikon mit Gebärdenanimationen
5 ZUSAMMENFASSUNG 20 Die videobasierte visuelle Spracherkennung ist allerdings erst in Entwicklung. Wie in Abbildung 12 zu sehen ist, kann der animierte Kopf frei im Raum gedreht werden. Teile des Kopfes können ausgeblendet werden. So kann zum Beispiel nur die Zunge angezeigt werden. Die Kopfoberfläche kann sowohl transparent dargestellt werden, als auch mit einer Textur (also mit Haut und Haar) versehen werden. Die Gesichtzüge können unterschiedliche Gefühlsausdrücke annehmen oder auch Kombinationen daraus. Abbildung 14 zeigt die Bedienoberfläche für die Einstellungen. BaldiSync integriert einen Text-to-Speech- und einen Spracherkenner in eine gemeinsame Oberfläche. Dabei kann für die Erzeugung von Sprache aus dem eingegeben Text unter verschiedenen Sprachen gewählt werden. Das generierte Sprachsignal wird dann mit einer Animationsausgabe gekoppelt. Hier ist es auch möglich nur Ausschnitte des Signals anzeigen zu lassen. Bild 13 zeigt die Oberfläche von Baldi-Sync. 4.5.3 Praktischer Einsatz Als Teil von weiteren mit dem CSLU-Toolit erstellten Anwendungen wird BaldiSync an der Tucker- Maxon Oral School eingesetzt. Die Schule war zu jeder Phase an der Entwicklung des Toolkit beteiligt. Im folgenden sind zwei Beispielszenarien angeführt. Baldi spricht hier Wörter vor und kontrolliert die Aussprache der Schüler. • Beispiel I: Sprachtherapie Dem Patienten werden Wörter mit minimalem Unterschied vorgespielt: mail“ - veil“. Der Patient ” ” muß nun – 1. ein Wort hören und auf das entsprechende Bild zeigen und – 2. zwei Worte hören und sagen, ob beide gleich sind. • Beispiel II: Erdkunde-Unterricht Den Schülern werden verschiedene geographische Merkmale gezeigt. Die Schüler müssen nun die Merkmale sprachlich umsetzen, i.e. sie müssen sagen, was sie sehen. Die Bewertung erfolgt mit Hilfe eines Spracherkenners, der Einstellungen für verschiedene Erkennungslevel (je nach Fähigkeit der Schüler) ermöglicht. 5 Zusammenfassung Wie wir gesehen haben, sind Gebärdensprachen komplexe, natürliche Sprachen mit vollständiger Gram- matik. Dies erleichtert den technischen Umgang mit diesen Sprachen erheblich. Natürliche Interaktion zwischen Gehörlosen und Maschinen erfordert entsprechende auf Gehörlose ausgerichtete Schnittstellen. Ist es bei nicht vollständig gehörlosen Menschen teils möglich technische Hilfsmittel zur Verfügung zu stellen, die eine Annäherung an normales“Hören ermöglichen, so ist es bei Gehörlosen ohne Resthörver- ” mögen unumgänglich neue Interaktionsmöglichkeiten zu schaffen. Die hier vorgestellten bisher vorhan- denen Lösungen zeigen, daß gehörlosen-gerechte Schnittstellen mit vertretbarem Aufwand realisierbar sind. Bisher fehlt es aber an einer Integration der erkennenden und der erzeugenden Systeme zu einer Gesamtschnittstelle. Auch sind die vorgestellten Systeme wegen des erheblichen Rechenaufwands oder der umständlichen technischen Apparaturen in der Praxis kaum einsetzbar. Aber mit dem zunehmenden technischen Fortschritt auf diesem Gebiet rücken praxisgerechte Lösungen immer näher, von denen nicht zuletzt auch allgemeine Benutzerschnittstellen profitieren würden.
5 ZUSAMMENFASSUNG 21 Abbildung 12: Unterschiedliche Blickwinkel auf Baldi Abbildung 13: Die Bedienoberfläche von BaldiSync
A BEISPIELE DER DGS 22 Abbildung 14: Die Einstellungsmöglichkeiten von Baldi A Beispiele der DGS
A BEISPIELE DER DGS 23 Abbildung 15: Strukturen der DGS – Ausführungsstelle und Bewegung
A BEISPIELE DER DGS 24 Abbildung 16: Strukturen der DGS – Numerus
A BEISPIELE DER DGS 25 Abbildung 17: Strukturen der DGS – Inkorporation von Objekten im Verb
A BEISPIELE DER DGS 26 Abbildung 18: Strukturen der DGS – Subjekt- und Objektinkorporation
A BEISPIELE DER DGS 27 Abbildung 19: Das Fingeralphabet
LITERATUR 28 Literatur [1] Butterworth et al, “The Perigee Visual Dictionary of Signing” , Berkeley Publ. Group 1995 [2] Franz Dotter, Gebärdensprache in der Gehörlosenbildung: Zu den Argumenten ihrer Gegner, in: Das Zeichen 5 (1991), S. 321-332 und in: Der Sprachheilpädagoge 23 (1991), Heft 3, S. 27-50 [3] Hermann Hienz, Sign Writing using a video-based input system, in: Kraiss, K.-F., ed.: Bi-Annual Report 1997/98, pp. 30-33, Shaker-Verlag Aachen (1999) [4] Hermann Hienz, Sign language recognition based on statistical methods, in: Kraiss, K.-F., ed.: Bi-Annual Report 1997/98, pp. 34-37, Shaker-Verlag Aachen (1999) [5] Waleed Kadous, GRASP: Recognition of Australian Sign Language using instrumented gloves, University of New South Wales, Schools of Electrical Engineering and Computer Science & Engineering, 1995 [6] Thad Starner, A wearable computer based American Sign Language Recognizer, The Media Laboratory, MIT [7] 3DSign Fachhochschule Hagenberg, Österreich, Website: http://www.fhs-hagenberg.ac.at/mtd/projekte/FFF/3dSign/index.html [8] Markus Kohler, Vision Based Hand Gesture Recognition Systems, Universität Dortmund
Sie können auch lesen