Cocktail-Partys und Hörgeräte: Biophysik des Gehörs
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Überblick Akustik Cocktail-Partys und Hörgeräte: Biophysik des Gehörs Physikalisch inspirierte Hörmodelle weisen den Weg zu intelligenten Hörgeräten Birger Kollmeier Von aktiven, nichtlinearen Prozessen im Ohr über numerische Hörmodelle bis hin zur Musik- übertragung im Internet mit MP3 oder objekti- ver Beurteilung der Sprachgüte von Handys: Die Hör-Akustik hat unmittelbare Auswirkun- gen auf unser tägliches Leben – nicht nur wenn eine Hörstörung auftritt oder wenn man auf ei- ner lebhaften Party nichts mehr versteht. Für die Physik ist die Analyse der effektiven Funk- tion des Gehörs als komplexes Gesamtsystem interessant. Die Umsetzung dieser Analyse in ein Hörmodell ermöglicht eine Vielzahl techni- scher Anwendungen. D ie Physik „wächst“ an den Rändern: Während Störgeräusche wesentlich besser unterdrücken als es Abb. 1: vor 20 Jahren Physiker, die sich mit neuronalen den Geräten noch vor etwa zehn Jahren möglich war, Auf einer Cocktail- Party können Systemen oder Sinnesorganen beschäftigten, versagen aber nach wie vor in akustisch „schwierigen“ Normalhörende eher zu den Außenseitern zählten, ist die Beschäfti- Situationen wie etwa einer Party. Um hier Lösungs- die vielen Neben- gung mit komplexen, nichtlinearen biologischen Syste- möglichkeiten aufzuzeigen, muss das zugrundeliegende geräusche unter- men zu einem auch für den wissenschaftlichen Nach- „System Ohr“ erst einmal analysiert werden. drücken und sich wuchs attraktiven Feld geworden, das von der Interdis- auf ein Gespräch konzentrieren. ziplinarität und der Anwendungsbreite physikalischer Aufbau und Funktionsweise des Gehörs Schwerhörige Methoden lebt. Nicht erst seit Helmholtzs frühen Ar- Das Außen- und Mittelohr (vgl. Abb. 2) leitet den haben dagegen beiten über „Die Lehre von den Tonempfindungen“ [1] Schall mit nur geringen Energieverlusten in das mit große Probleme – ist die Beschäftigung mit dem Hörsinn ein wichtiges Flüssigkeit gefüllte Innenohr. Funktionsstörungen des eine besondere Herausforderung Beispiel hierfür. Dieser Beitrag zeigt die Verbindung Außen- und Mittelohres machen sich in einer Schall- an die Kommuni- auf zwischen der medizinischen Sichtweise des Hör- leitungs-Schwerhörigkeit bemerkbar, die durch HNO- kationsakustik! vorgangs (und seinen möglichen Störungen) und der ärztliche Eingriffe oder durch ein einfaches, lineares physikalischen Sichtweise. Mögliche Anwendungen des Hörgerät ausgeglichen werden können. Die eigentliche quantitativen Zugangs zur Modellierung des Hörvor- Umwandlung der Schallschwingungen in Nervenimpul- gangs werden exemplarisch für die Bereiche Telekom- se findet im Innenohr (Kochlea oder Hörschnecke) munikation, Audio-Signalverarbeitung und digitale statt. Die Hörschnecke ist der Länge nach durch die Hörgeräte vorgestellt. Basilarmembran unterteilt, wobei die auf der Basilar- Eine wesentliche Motivation für die Beschäftigung membran angeordneten inneren und äußeren Haar- mit dieser Thematik ist der „Cocktail-Party-Effekt“, der zellen die mechano-elektrischen Wandler darstellen. Partygästen die Konversation erleichtert und dessen Störungen des Innenohrs oder der nachfolgenden neu- Ausfall eines der schwerwiegendsten Probleme für ronalen Strukturen führen zu der Schallempfindungs- Schwerhörige darstellt: In einer störgeräuschbehafteten Schwerhörigkeit, die wesentlich häufiger vorkommt Umgebung (z. B. einer lebhaften Party) können sich (ca. 15 % unserer Bevölkerung), aber leider auch pro- Normalhörende relativ gut auf einen Sprecher konzen- blematischer ist als die Schallleitungs-Schwerhörigkeit Prof. Dr. Dr. Birger Kollmeier, Medizini- trieren und die Störgeräusche unterdrücken. Schwer- [2]. sche Physik, Univer- hörigen fällt dies jedoch besonders schwer, sodass sie Das Problem liegt in der Nichtlinearität des Innen- sität Oldenburg, derartige Situationen und größere Menschenansamm- ohrs (siehe Infokasten „Wie nichtlinear ist das Ohr?“), 26111 Oldenburg; lungen meiden, was häufig zur sozialen Isolation führt. die sich auch objektiv mit einem empfindlichen Mikro- http://medi.uni- Selbst die modernsten kommerziellen, digitalen Hör- fon ausmessen lässt. Abbildung 3 zeigt das gemittelte oldenburg.de geräte können zwar in akustisch „einfachen“ Situatio- Spektrum des akustischen Signals, das im abgeschlos- nen (mit nur einer stationären Störquelle, die aus einer senen Gehörgang eines normalhörenden Probanden ganz anderen Richtung als das Nutzsignal kommt) die gemessen werden kann, wenn die mit f1 und f2 gekenn- Physik Journal 1 (2002) Nr. 4 39 1617-9439/02/0404-39 $17.50+50/0 © WILEY-VCH Verlag GmbH, D-69451 Weinheim, 2002
Überblick zeichneten reinen Sinustöne als Eingangssignale gege- oder als andauerndes Ohrensausen („Tinnitus“) Aus- ben werden. Die Verzerrungsprodukte (z. B. bei 2f1–f2) druck einer Hörstörung ist. werden vom Innenohr akustisch als eine Art Echo ab- Als wichtigste Quelle der Nichtlinearitäten im gestrahlt („otoakustische Emissionen“, oto ist latei- Innenohr und damit der otoakustischen Emissionen nisch für Ohr) und verschwinden bei Hörstörungen gelten die Haarzellen, die die Bewegung der Basilar- oder bei Unterbrechung der Sauerstoff-Zufuhr des In- membran in eine elektrische Spannung umsetzen und nenohrs. Die negative Dämpfung bei kleinen Auslen- dabei sogar Auslenkungen im Sub-Nanometer-Bereich kungen der Basilarmembran und die Ankopplung an (!) hörbar machen. Die inneren Haarzellen dienen da- äußere Reize lässt sich in guter Näherung durch einen bei primär als „Mikrofone“, deren Ausgangsspannung nichtlinearen van-der-Pol-Oszillator beschreiben [4]. über eine Erregung im Hörnerv zum Gehirn übertragen wird. Die äußeren Haarzellen fungieren zusätzlich als „Lautsprecher“, da sie durch Wechselspannung zu akti- Abb. 2: Das Ohr aus Sicht ven Kontraktionen angeregt werden und quasi als Re- des Mediziners sonanzverstärker von Basilarmembran-Schwingungen besteht (von links die Empfindlichkeit und die Frequenzauflösung des nach rechts) aus Hörorgans steigern [5]. Die genauen mikromechani- dem Außenohr schen Mechanismen und die Kodierung akustischer In- (Ohrmuschel, Gehörgang, Trom- formation im Nervensystem sind nach wie vor Gegen- melfell), dem stand biophysikalischer Forschung. In physiologischen Mittelohr (Pauken- Messungen wird dazu die Reaktion des Körpers (z. B. höhle mit den einer Nervenzelle im Tierexperiment) auf einen defi- Gehörknöchelchen Hammer, Amboss, nierten akustischen Reiz erfasst. Beim Menschen kann Steigbügel), dem man dazu das Elektro-Enzephalogramm (EEG) bzw. Innenohr (Gehör- das Magneto-Enzephalogramm (MEG) als Spannungs- schnecke bzw. Magnetfeldverlauf auf der Schädeloberfläche er- (Cochlea) mit der fassen oder mit funktioneller Kernspintomographie die Basilarmembran) und dem Hörnerv (zeitlich nur wenig aufgelöste) Aktivierung bestimmter sowie dem hier Hirnareale. Bei psychophysikalischen Messungen wird nicht skizzierten dagegen die subjektive Reaktion einer Versuchsperson zentralen auditori- auf einen Reiz erfasst, wobei die Versuchsperson eine schen System im Gehirn (aus [18]). vorgegebene Aufgabe durchführen muss (z. B. Erken- nen eines Tons in einem zweimal angebotenen Rau- Weil die otoakustischen Emissionen in der Regel nur schen, von denen nur eines den Ton enthält). Durch bei gesunden Ohren auftreten, werden sie auch als ob- die sich gegenseitig ergänzende Information aus beiden jektiver Hörtest bei Neugeborenen eingesetzt. Dazu be- Bereichen besitzen wir relativ genaue Vorstellungen schallt man das Ohr mit einem leisen „Klick“ und misst über die Verarbeitungsprinzipien des zentralen Hör- Zeitverzögerung, Frequenzspektrum und Reproduzier- systems im Gehirn: barkeit des Echos. Otoakustische Emissionen können 왘 Frequenzabbildung: Im Innenohr werden hohe Fre- auch ohne äußeren Reiz („spontan“) im abgeschlosse- quenzen an der Basis der Kochlea abgebildet, niedrige nen Gehörgang mit niedrigen Schalldruckpegeln auf- Frequenzen an der Spitze. Gemäß dieser Frequenz- treten (Hörbeispiel 2) #) und sind normalerweise unhör- Orts-Transformation werden auf allen Stationen der bar. Sie weisen keinerlei Beziehung zu dem subjektiv Hörbahn benachbarte Frequenzen an benachbarten empfundenen „Fiepen“ im Ohr auf, das sporadisch Orten verarbeitet. oder nach einer Lärmbelastung bei Gesunden auftritt 왘 Einhüllenden-Extraktion und Dynamikkompression: Wie nichtlinear ist das Ohr? Dass die Funktion des nor- Mittel- und Innenohres) ei- im Gehirn weitgehend aus- Übersteuerung). Bei Innen- malen Innnohrs hochgradig nen abwärts verlaufenden geglichen. Bei natürlichen ohr-Störungen entfällt die nichtlinear ist, lässt sich an Sweep („kubischer Differenz- (breitbandigen) Signalen periphere Dynamik-Kom- #) Die in diesem Artikel folgendem einfachen Hör- ton“ 2 f 1–f 2) und einen Auf- werden die Verzerrungspro- pression. Die auf eine erwähnten Hörbeispiele experiment mit einem Paar wärts-Sweep mit niedrigerer dukte nämlich von den stär- funktionierende Kompres- sind unter http://medi. Stereolautsprecher demon- Frequenz („quadratischer keren Komponenten des Ein- sion eingestellte Signalver- uni-oldenburg.de/de- strieren (Hörbeispiel 1) #): Differenzton“ f 2–f 1) wahr. gangs-Schallsignals bei der arbeitung im Gehirn bleibt mos/pj/ und www.pro- Auf einem Lautsprecher wird Diese so genannten Ver- jeweiligen Frequenz verdeckt aber bestehen, sodass das physik.de/ Phy/PJ/koll- meier.html abrufbar. ein konstanter Sinuston von zerrungsprodukte werden („maskiert“), sodass sie un- Gesamtsystem „effektiv Zum Anhören sind eine f 1 = 2 kHz abgespielt. Mit durch eine kompressive hörbar sind. Dies führt zu- nichtlinear“ wird [3]. Dies Soundkarte und Laut- dem zweiten Lautsprecher Nichtlinearität im Innenohr sammen mit anderen Effek- liefert eine Erklärungsmög- sprecherboxen oder wird dagegen ein Ton mit ei- erzeugt: Für schmalbandige ten zu einer „effektiven lichkeit für den gestörten Kopfhörer erforderlich. ner aufsteigenden Frequenz Signale ist die dort angeregte Linearität“ unserer Schall- Cocktail-Party-Effekt bei f 2 („Sweep“) zwischen 2 kHz Schwingung proportional zu Wahrnehmung. Sie ist eine Schwerhörigen: Möglicher- und 2,8 kHz erzeugt. Werden einer Potenzreihe des Ein- wichtige Voraussetzung für weise interagieren bei der ge- nun beide Lautsprecher gangssignals, wobei die dritte das Trennen von überlager- störten Schallwahrnehmung gleichzeitig angeschaltet (li- Potenz zum kubischen Diffe- ten akustischen „Objekten“ die verschiedenen akusti- neare Addition des Schallfel- renzton führt. Allerdings und lässt uns zudem selbst schen Objekte nichtlinear des in der Luft), nimmt man wird diese Nichtlinearität kleinste Nichtlinearitäten im miteinander und können da- subjektiv (je nach Lautstärke normalerweise in der nach- Schallsignal erkennen (z. B. her nicht mehr so getrennt der beiden Stimuli und Funk- folgenden Signalverarbeitung den „Klirrfaktor“ der HiFi- werden wie bei Normal- tionszustand des eigenen und durch kognitive Prozesse Anlage kurz vor deren hörenden. Physik Journal 40 1 (2002) Nr. 4
Überblick In jedem Frequenzband, das zu einem bestimmten Ort nung und Interpretation der „internen Repräsentation“ auf der Basilarmembran gehört, überträgt der Hörnerv des Schalls. Andere Funktionsblöcke (z. B. das interne nicht mehr die vollständige Feinstruktur mit der Pha- Rauschen) und die funktionelle Gestaltung und Para- seninformation des Eingangssignals, sondern approxi- meterwahl sämtlicher Blöcke stammen dagegen aus mativ seine Einhüllende, d. h. die langsamer schwan- psychoakustischen Experimenten, zu deren Vorhersage kende momentane Schallintensität. Dabei wird ein das Modell primär eingesetzt wird. Ebenso stammen sehr großer Dynamikbereich von bis zu 120 dB Pegel- die hypothetischen Funktionsstörungen, die bei einem differenz zwischen Hörschwelle und Unbehaglichkeits- sensorineuralen Hörverlust auftreten können (Stern- schwelle erreicht, obwohl jedes einzelne beteiligte chen in Abb. 4), aus audiologischen Messungen mit Neuron nur maximal etwa 40 dB überdeckt. Die Me- schwerhörigen Patienten. chanismen der Adaptation (Anpassen der Empfindlich- keit eines Neurons an den gerade vorliegenden mittle- ren Eingangspegel) und der Umsetzung der Schall- intensität in einen subjektiven Lautheitseindruck sind noch nicht abschließend geklärt. 왘 Modulationsabbildung: Innerhalb jedes Frequenz- bandes wird die Signal-Einhüllende in verschiedene Amplituden-Modulationsfrequenzen aufgespalten. Da- mit werden über sämtliche Frequenzen hinweg die ver- schiedenen Rhythmen des Eingangssignals, aber auch periodische Zeitstrukturen (z. B. die Grundfrequenz bei Sprachlauten) systematisch auf benachbarte Ner- venzellen im Gehirn abgebildet. Diese zweidimensio- nale Abbildung (Mittenfrequenz versus Modulations- frequenz) wurde aufgrund von physiologischen Mes- Abb. 3: sungen gefunden [6] und anhand psychoakustischer Das „Echo“ des Innenohrs. Angeboten werden im abgeschlosse- Messungen und Modelle bestätigt [7]. nen Gehörgang zwei Sinustöne bei den Frequenzen f 1 und f 2. Bei der Schallaufnahme mit einem empfindlichen Mikrofon 왘 Binaurale (räumliche) Abbildung: Um den Ort bzw. erscheint im hier gezeigten gemittelten Spektrum bei gesundem die Einfallsrichtung einer Schallquelle zu ermitteln, Gehör zusätzlich das kubische Verzerrungsprodukt bei 2f 1–f 2. wertet das Gehirn die zwischen beiden Ohren auftre- tende Laufzeit- und Pegeldifferenz aus und setzt sie in Um den prinzipiellen Rahmen des Modells in ein eine „innere Karte“ der akustischen Umwelt um. Dabei konkretes, numerisches Verarbeitungsmodell umzuset- wird eine Winkelauflösung von bis zu 1 Grad und eine zen, sind umfangreiche theoretische und experimentel- Zeitgenauigkeit von bis zu 20 ms erreicht – eine der le Arbeiten notwendig. Typischerweise wird dem Mo- phantastischsten Leistungen unseres Gehörs! (Siehe dell am Eingang dasselbe Signal präsentiert wie der Infokasten auf der folgenden Seite). Versuchsperson, etwa ein Ton, versteckt im Rauschen. Vor dem letzten Block des Modells bildet sich dieses Modelle der „effektiven“ Signal- Eingangssignal zu jedem Zeitpunkt als mehrdimensio- verarbeitung nale Intensitätsverteilung von z. B. Frequenz, Modula- Aus Sicht der Physik möchte man vor allem die Ge- tionsfrequenz und binauraler Komponente ab. Aus der setzmäßigkeiten und Mechanismen verstehen, die mög- Ähnlichkeit des Musters mit einem zuvor gespeicherten lichst vielen der beobachtbaren Phänomene zugrunde Muster eines deutlich aus dem Rauschen herausragen- liegen, während eine detaillierte Nachbildung jeder den Tones berechnet nun der zentrale Mustererkenner einzelnen Nervenzelle zunächst nicht im Vordergrund steht. Ein wichtiges Anliegen der physikalischen Hör- forschung ist daher die Entwicklung von quantitativen Hörmodellen, die mit einer möglichst kleinen Zahl von Annahmen und einzustellenden Parametern eine mög- lichst große Variationsbreite von Experimenten quanti- tativ vorhersagen und anhand „kritischer“ Experimente bestätigt oder falsifiziert werden können. Obwohl die- ser Modellansatz damit von vornherein starken Ein- schränkungen unterliegt, kann er unser derzeitiges Wissen über die „effektive“ Verarbeitung akustischer Information überprüfbar zusammenfassen und zu ei- nem funktionalen Verständnis des Hörvorgangs führen. Der prinzipielle Aufbau eines derartigen Modells der „effektiven Verarbeitung“ im auditorischen System ist Abb. 4: in Abb. 4 dargestellt. Einige der Funktionsblöcke wur- Das Ohr aus Sicht des Physikers ist ein Modell der „effektiven“ Verarbeitung im auditorischen System. Es ist durch eine Reihe den direkt aus physiologischen Erkenntnissen abgelei- von parallelen, linearen und nichtlinearen Signalverarbeitungs- tet. So wird z. B. die Funktion der Basilarmembran als Operationen gekennzeichnet, die die Transformation vom akus- „effektive“ Bank von Bandpassfiltern modelliert, die tischen Signal in seine „interne Repräsentation“ im Gehirn „effektive“ Funktion von Haarzellen und auditori- beschreiben. Diese Repräsentation dient unserem Gehirn als schem Nerv als Kompression und Einhüllendenbil- Basis für höhere kognitive Leistungen wie das Verstehen von Sprache, wobei im Modell die Minderung dieser Leistungen dung, die Funktionsprinzipien des Hirnstamms als Mo- allein durch die Unschärfe der internen Repräsentation ange- dulations-Filterbank und binaurale Verarbeitung, und setzt wird. Mögliche Störungen dieser Repräsentation bei schließlich die Funktion des Kortex als Mustererken- Schwerhörigkeit sind durch Sternchen gekennzeichnet. Physik Journal 1 (2002) Nr. 4 41
Überblick die Wahrscheinlichkeit, dass der Ton von der Versuchs- 왘 Das Boston-Modell zur binauralen Informations- person wahrgenommen wird. Diese Wahrnehmbarkeit verarbeitung von Colburn und Mitarbeitern beschreibt wird dann mit Experimenten verglichen, bei denen die dagegen die verschiedenen Leistungen des binauralen Versuchsperson exakt dieselben Signale vorgespielt be- (zweiohrigen) Hörens unter expliziter Modellierung kommt und dieselbe Erkennungsaufgabe durchführt von Neuroneneigenschaften [10]. Andere binaurale wie der Computer. Anschließend kann das Modell Funktionsmodelle (z. B. das Bochumer Modell von durch die Vorhersage von Hörexperimenten mit vielen Blauert und Mitarbeitern [11]) benutzen nachrichten- unterschiedlichen Signalen und Wahrnehmungsaufga- technische Funktionselemente, um charakteristische ben überprüft und iterativ verbessert werden [7]. Eigenschaften der binauralen Informationsverarbeitung Der Teil des Modells vor dem Mustererkenner ent- im Gehirn funktionell zu modellieren. spricht beim Menschen der Verarbeitung eines akusti- 왘 Das Modell der Cambridge-Arbeitsgruppe um Patter- schen Signals zu einer „internen Repräsentation“, etwa son und Meddis setzt dagegen Schwerpunkte bei der einem neuronalen Erregungsmuster. Der kognitive Ap- Tonhöhenerkennung und dem Übergang von der Wahr- parat, mit dem der Mensch solch ein Erregungsmuster nehmung aperiodischer Vorgänge in periodische Vor- interpretiert, wird durch den Mustererkenner model- gänge mit zugehörigem „pitch“ [12]. liert. Am Ende dieses Prozesses steht eine Aussage wie 왘 Das „Oldenburger Perzeptionsmodell“ legt einen be- „Die Versuchsperson hört den Ton.“ Sie ermöglicht den sonderen Schwerpunkt auf die zeitlichen Eigenschaften Vergleich von Theorie und Experiment. Dabei setzt je- der Signalverarbeitung im Gehör und bildet eine relativ de Forschungsgruppe unterschiedliche Schwerpunkte große Zahl von psychoakustischen Effekten quantitativ im Detaillierungsgrad einzelner Funktionsblöcke des nach. Es wurde zunächst am III. Physikalischen Insti- Modells und bei der Klasse von vorhersagbaren Experi- tut in Göttingen und ab 1993 im Graduiertenkolleg menten: „Psychoakustik“ der Universität Oldenburg von Dau et 왘 Das in München von Zwicker und Mitarbeitern ent- al. [7] als Modell der „effektiven“ Signalverarbeitung wickelte Lautheitsmodell [9] mit seinen Erweiterungen im auditorischen System entwickelt, und auf die Vor- für die Beschreibung von Schwerhörigkeit und Schall- hersage von Sprachverständlichkeit bei Normal- und fluktuationen beschreibt beispielsweise die primär von Schwerhörenden [13] sowie das binaurale Hören er- der Schallintensität, dem Schallspektrum und der weitert. Das Modell basiert auf einer geringen Zahl von Schalldauer abhängige Lautheitswahrnehmung, wobei Annahmen und Parametern, die in wenigen, „kriti- die Blöcke „Modulationsfilterbank“, „Internes Rau- schen“ Experimenten festgelegt und für die quantitative schen“ und „binaurale Störschallunterdrückung“ aus Beschreibung anderer Experimente nicht mehr variiert Abb. 4 entfallen. werden. Eine Stärke des Oldenburger Modells ist die „optimale“ Mustererkennung: Der Algorithmus des Das Ohr als Spektralapparat oder als Zeit-Analysator? Mustererkenners in Abb. 4 wird mithilfe empirischer Während frühere Hörtheorien und Er- Zeitstruktur stärker beeinträchtigt als Daten „geschult“. Auf diese Weise gehen Aspekte wie klärungen des Sprachverstehens vor- durch eine spektrale Verformung: So Aufmerksamkeit und Lernen nicht mehr explizit in die wiegend von einer spektralen Sicht- nimmt die Sprachverständlichkeit bei Modellierung ein, weil der „optimale Detektor“ bereits weise des Hörvorgangs ausgingen periodisch unterbrochener Sprache ab die „interne Repräsentation“ des Schallsignals perfekt (z. B. Unterscheidung der Sprach- einer bestimmten Unterbrechungsrate interpretiert. Die gesamte Ungenauigkeit des Hörvor- Vokale durch die Lage der spektralen sehr stark ab. Wenn in die zeitlichen gangs wird auf die Nichtlinearität der Signalverarbei- Maxima/Formanten) und den zeit- Lücken jedoch anstelle der Original- lichen Aspekt der Hörwahrnehmung Sprache ein Rauschen mit festem Spek- tung und das interne, neuronale Rauschen bei der als sekundär ansahen, verhält es sich trum gefüllt wird, ist die Zeitstruktur Transformation vom akustischen Signal bis hin zu der bei modernen Hörtheorien genau um- nur noch relativ wenig gestört und un- internen Repräsentation reduziert. Dieses Vorgehen gekehrt: Das Ohr ist nicht nur das ser Gehirn ist in der Lage, die Sprach- hat den entscheidenden Vorteil, dass man sich nur auf schnellste Sinnessystem des Menschen, information wieder zusammenzusetzen denjenigen Teil der Wahrnehmungsleistungen be- es kann auch die einem akustischen (Hörbeispiel 4): Das Abwechseln von schränkt, der reproduzierbaren psychophysikalischen Signal aufgeprägte zeitliche Informati- Sprachsegmenten mit Rauschsegmenten on sehr genau verfolgen. So lassen sich hört sich wie stark verrauschte, konti- Experimenten zugänglich ist und sich zudem mögli- zeitliche Lücken ab einer Dauer von nuierliche Sprache an, d. h. durch Zu- cherweise physiologisch bestätigen lässt. Komplexe ca. 5 ms in einem breitbandigen Signal fügen (!) von Rauschen wird die Spra- psychische Einflussfaktoren der menschlichen Wahr- sicher detektieren. Begrenzt wird die che „entstört“! nehmung akustischer Ereignisse werden in der Model- Zeitauflösung durch die Vor- und Die plausibelste Hörtheorie ist da- lierung dagegen nicht berücksichtigt. Nachverdeckung, d. h. ein Testsignal her eine Kombination der spektralen kann ab ca. 10 ms vor und bis zu und zeitlichen Analyse im Sinne einer 200 ms nach einem (lauteren) Maskie- „Demodulation“ der in jedem Fre- Modellierung gestörter Hörfunktionen rungssignal nicht mehr gehört werden. quenzband vorhandenen Zeit-Informa- Ein möglichst quantitatives Verständnis der gestör- Das liegt an der Trägheit des zentralen tion durch das Innenohr mit anschlie- ten Signalverarbeitung bei Schallempfindungs-Schwer- Hörsystems bei der Anpassung an ei- ßender Einhüllenden-Analyse in Mo- hörigkeit ist sowohl für die Hördiagnostik als auch für nen neuen Pegel. dulationsfrequenzbändern im Gehirn. die optimale Rehabilitation, z. B. mit „intelligenten“ Ein Beispiel gegen die rein spektrale Besondere Bedeutung kommt dabei Hörgeräten, unabdingbar. Wegen der Vielzahl der ge- Sichtweise ist die Verständlichkeit von zeitlichen Merkmalen und Modulati- störten Einzelleistungen bei Schwerhörigkeit ist es eine „flat-spectrum speech“ [8], d. h. von ge- onsfrequenzen zu, die in mehreren filterter Sprache, deren Kurzzeitspek- Frequenzbändern gleichzeitig auftre- besondere Herausforderung, die ursächlichen oder tren ohne spektrale Information, also ten. Dadurch ist das Ohr in der Lage, primären Defizite der Hör-Signalverarbeitung von den flach sind (Hörbeispiel 3). Ein anderes akustische „Objekte“ (zum Beispiel daraus ableitbaren Defiziten anderer Hörfunktionen zu Beispiel für Sprachverstehen ohne Sprache) auch bei sehr ungünstigem trennen. Im Rahmen des in Abb. 4 dargestellten Mo- intaktes Sprachspektrum ist Bandpass- Signal-zu-Rausch-Verhältnis noch si- dellschemas lassen sich nun die vier wichtigsten primä- gefilterte Sprache, die in einer spektra- cher zu erkennen, bei dem das mittlere ren Komponenten von Hörstörungen (Sterne in Abb. 4) len Lücke eines Rauschens dargeboten Sprachspektrum schon vollständig ver- wird. Umgekehrt wird das Sprachver- deckt ist. wie folgt charakterisieren: stehen durch eine Veränderung der 1) Abschwächungswirkung des Hörschadens (lineare Dämpfung): Eine Schallleitungs-Schwerhörigkeit oder Physik Journal 42 1 (2002) Nr. 4
Überblick ein Ausfall der inneren Haarzellen führt vorwiegend zu 왘 Signalkodierung: Die Bitraten-Reduktion bei der einer Sensitivitäts-Verminderung, d. h. einer effektiven Speicherung von Sprach- und Audiodaten, z. B. mit „Abschwächung“ des Schalls. Sie kann durch eine ent- dem MP3-Verfahren, kodiert das akustische Signal so, sprechende lineare Verstärkung des Schalls kompen- dass möglichst geringe Abweichungen zwischen Origi- siert werden. Dies bewirkt aber meistens keine zufrie- nal und dekodiertem Signal auf der „perzeptiven“ Ebe- denstellende Wiederherstellung des Hörvermögens, so- ne am Ausgang des Hörmodells auftreten, obwohl die- dass weitere Komponenten betrachtet werden müssen. se Signale auf der akustischen Ebene am Eingang des 2) Kompressionsverlust: Ein Ausfall der äußeren Haar- Hörmodells sehr unterschiedlich sein können. Bei der zellen führt zusätzlich zur Abschwächung zu einer standardisierten MP3-Kodierung wird im Wesentlichen „Verzerrung“: Bei niedrigen Pegeln entfällt die aktive das von Zwicker vor mehreren Jahrzehnten entwickelte Verstärkung, sodass sich der große Dynamikbereich Lautheits- und Maskierungsmodell verwendet, um der akustischen Eingangssignale nicht mehr vollständig unhörbare Signalbestandteile zu eliminieren und das im Gehirn abbilden lässt. Dies macht sich beim für die Quantisierungsrauschen hinter den hörbaren Kompo- meisten Innenohr-Schwerhörigen typischen „Recruit- nenten zu „verstecken“. ment“-Phänomen bemerkbar (Hörbeispiel 5), bei dem 왘 Signalqualitäts-Bewertung: Der Unterschied am Aus- nach dem subjektiven Eindruck „zu leise“ bei leichter gang des Hörmodells wird auch bei der objektiven Gü- Erhöhung des Schallpegels bereits der Eindruck „zu te-Beurteilung von kodierten bzw. nichtlinear verarbei- laut“ folgt. Diese gestörte Lautheitswahrnehmung kann teten Sprach- und Audiosignalen ausgewertet, die bis- durch eine Multiband-Dynamikkompression in moder- nen Hörgeräten nur teilweise kompensiert werden, da z. B. die Bandbreiten-Abhängigkeit der unterschiedli- chen Lautheitswahrnehmung bei Normal- und Schwer- hörigen nicht berücksichtigt wird. Die Entwicklung adäquater Lautheitsmodelle für Schwerhörige und ihre Integration in Hörgeräte ist daher Gegenstand laufen- der Forschung [14]. 3) Binauraler Hörverlust: Normalhörende können die an beiden Ohren eintreffenden Signale im Gehirn ver- gleichen und durch binaurale (beidohrige) Signalverar- beitung den wahrnehmbaren Nachhall verringern und unerwünschte Schalleinfallsrichtungen ausblenden. Bei Schwerhörigen kann aber – weitgehend unabhängig von den übrigen bisher genannten Faktoren der Hör- störung – genau diese binaurale Signalverarbeitung gestört sein. Dies bedingt u. a. die eingangs erwähnte Störung des „Cocktail-Party-Effektes“. In der derzeiti- Abb. 5: gen Routine-Diagnostik und Hörgeräteversorgung mit Sprachqualitäts-Vorhersage (aus [16]): Die Ordinate zeigt das subjektive Qualitätsurteil einer Gruppe normalhörender Pro- unabhängigen Geräten auf beiden Seiten wird aller- banden (als mean opinion score, MOS) für eine Test-Datenbank dings dieser Faktor noch nicht berücksichtigt. Erst von verschiedenen Mobilfunk-Verbindungen. Die Abszisse zeigt „echt“ binaurale Hörgeräte versprechen Abhilfe. die Vorhersage dieser Daten auf der Basis des Oldenburger 4) Zentrale Hörstörung: Selbst bei nur gering gestörter Perzeptionsmodells für verschiedene Kodierungsverfahren (Buchstaben). Die hohen Korrelations-Indices r und rs bei Signalverarbeitung durch das Hörsystem kann bei niedriger Standard-Abweichung (SD) zeigen eine gute objektive Schwerhörigen die Auflösung der internen Repräsentati- Vorhersage der subjektiven Ergebnisse an. on verringert sein, sodass die vom Gehör aufgenomme- nen und intern repräsentierten Schallsignale nicht mehr her nur subjektiv mit aufwändigen Hörexperimenten adäquat ausgewertet und interpretiert werden können. ermittelt werden konnte. Beispielsweise lässt sich die Dieser Effekt lässt sich ebenso wie andere Unzuläng- wahrgenommene akustische Qualität einer Handy- lichkeiten der zentralen Auswerte-Einheit, z. B. geringe Mobilfunkverbindung durch das Oldenburger Perzep- Aufmerksamkeit, mangelndes Training, am ehesten tionsmodell mit dem Computer vorhersagen (objekti- durch ein erhöhtes „internes Rauschen“ modellieren. ver Parameter qc aufgetragen auf der Abszisse in Sämtliche der hier genannten Komponenten tragen Abb. 5). Der Vergleich mit dem subjektiven „Mean opi- bei dem individuellen Patienten in unterschiedlichem nion score“ auf der Ordinate in Abb. 5 zeigt eine hohe Maße zu der Hörstörung und beispielsweise zur Verrin- Treffsicherheit der objektiven Vorhersage [16]. gerung des Sprachverstehens in Störgeräuschen bei. 왘 Sprach- und Mustererkennung: Dem Computer wer- Daher ist es das Ziel aktueller Forschungsarbeiten, effi- den „Ohren verliehen“, indem nicht eine technische ziente Messmethoden zu entwickeln, mit denen sich je- Darstellung des Sprachsignals, sondern die „interne de der Komponenten erfassen lässt, sowie das Modell Repräsentation“ vom Ausgang des Gehörmodells als so anzupassen, dass es das jeweilige Hörvermögen je- Eingangssignal für einen Spracherkennungs- bzw. des individuellen Patienten korrekt beschreibt [15]. Mustererkennungs-Algorithmus benutzt wird. Die Robustheit unseres Ohres gegenüber Störgeräuschen Anwendungen des Perzeptionsmodells und Änderungen der Raumakustik soll damit auf den Unter der Voraussetzung, dass das oben beschriebe- Computer übertragen werden: Abbildung 6 zeigt die ne Perzeptionsmodell eine valide und objektive Be- Worterkennungsrate in Prozent als Funktion des Signal- schreibung der Transformation des akustischen Signals zu-Rausch-Verhältnisses. Bei der konventionellen in seine „interne Repräsentation“ im menschlichen Ge- Sprachvorverarbeitung mit dem sog. MFCC-Verfahren hirn darstellt, erschließen sich eine Reihe von techni- (gestrichelte Linie) sinkt die Erkennungsrate mit zuneh- schen Anwendungen: mendem Rauschen viel eher als bei der Sprachvorver- Physik Journal 1 (2002) Nr. 4 43
Überblick arbeitung mit dem Oldenburger Perzeptionsmodell kennung) sehr erstrebenswert ist, zählt dies zu den (durchgezogene Linie, aus [17]). Bei einer stark einge- großen, noch ungelösten Problemen der Akustik. schränkten Zahl von möglichen Alternativen des zu er- Einen vielversprechenden Ansatz bietet die Analyse kennenden Wortes oder Satzes erreicht der Computer mit dem so genannten Amplituden-Modulations-Spek- sogar die Erkennungsleistung des menschlichen Gehörs trogramm (AMS), das in jedem Frequenzband die zeit- – Anlass genug, das Gehörmodell in Zusammenarbeit lichen Fluktuationen in verschiedene Modulations-Fre- mit der Informatik als Computer-Chip zu entwerfen quenzen zerlegt. Es entspricht der bereits in Abb. 4 („Silicon Ear“). dargestellten Modellvorstellung, dass in jedem audito- rischen Frequenzband die zeitliche Einhüllenden- Struktur durch eine Modulations-Filterbank ausgewer- tet wird. In dieser Darstellung ist Sprache durch in mehreren Frequenzbändern vorhandene kohärente Modulationen im Modulationsfrequenzbereich von 4 Hz (Silbenfrequenz) und mehreren hundert Hz (Sprachgrundfrequenz mit Harmonischen) gekenn- zeichnet. Störgeräusche weisen hingegen in der Regel weniger kohärente Modulationen und auch ein anderes Modulationsspektrum auf, sodass sich diese Unter- schiede gut für die Störgeräuschunterdrückung ausnut- zen lassen. Der Vorteil dieses Verfahrens ist seine Anwendbarkeit auch für monaurale (einkanalige) Mikrofonsignale und für fluktuierende Hintergrund- geräusche (Hörbeispiel 6). Der Nachteil des Verfahrens Abb. 6: ist jedoch der hohe Rechenaufwand. Außerdem versagt Robuste Spracherkennung (aus [17]): Dargestellt ist die Wort- erkennungsrate eines künstlichen Spracherkenners unter Ruhe- es, wenn das Hintergrundgeräusch selbst Sprache (z. B. bedingungen („clean“) und als Funktion des Signal-zu-Rausch- ein weiterer Sprecher) ist. Verhältnisses für Sprache in Baustellenlärm für die konventio- Daher bietet ein binaurales Verfahren Vorteile, bei nelle Sprachvorverarbeitung (MFCC, gestrichelte Linie) und für dem die Signale an beiden Ohren aufgenommen wer- das Oldenburger Perzeptionsmodell (durchgezogene Linie). den und in einer zentralen Recheneinheit so gefiltert werden, dass die von vorn kommenden Signalanteile, Abb. 7: d. h. der Nutzschall, verstärkt und der von anderen Digitales, binaura- les Prototyp-Hör- Richtungen kommende Störschall unterdrückt wird gerät, das im [18]. Damit wird das binaurale Hören gewissermaßen Rahmen eines simuliert. Ein derartiges binaurales Hörgerät hat deut- BMBF-Verbund- liche Vorteile gegenüber zwei unabhängigen Hörgerä- projekts zusammen ten auf beiden Seiten und erst recht gegenüber einem mit der FH Nürn- berg und der Uni- monauralen Hörgerät. Ein binaurales Hörgerät ist zwar versität Gießen noch nicht kommerziell, zusammen mit der FH Nürn- entwickelt wurde. berg, der Uni Gießen und weiteren Partnern wurde aber bereits ein tragbarer Prototyp entwickelt (Abb. 7 und Hörbeispiel 7 für die Verarbeitungsleistung binau- raler Hörgeräte-Algorithmen). Für ein kommerzielles binaurales Hörgerät ist jedoch eine drahtlose Verbin- dung zwischen den Geräten nötig, die wegen der erfor- 왘 „Intelligente“ Hörgeräte: Ziel der Signal-Manipula- derlichen Stromaufnahme noch eine große technologi- tionen im Hörgerät sollte es sein, den Unterschied der sche Herausforderung darstellt. „internen Repräsentation“ am Ausgang des Hörmodells Wie wird die Entwicklung der Hörgeräte weiterge- zwischen Normal- und Schwerhörigen zu minimieren. hen? Es ist abzusehen, dass das Hörgerät nur noch ei- Dies setzt jedoch neben dem Modell für das normale ne Option eines „Personal Communication Devices“ Gehör auch ein Modell des gestörten Hörvermögens der Zukunft darstellen wird, in dem Mensch-Maschine- voraus, das individuell angepasst wird. Obwohl inzwi- und Mensch-Mensch-Kommunikationsfunktionen wie schen digitale Hörgeräte mit einem vergleichbaren MP3-Player, Handy, Laptop und eben Hörgerät in ei- Konzept auf dem Markt sind, ist dies noch ein Bereich nem tragbaren und durch Sprachsteuerung bedienba- aktueller Forschungs- und Entwicklungsarbeiten. ren Gerät verschmelzen. Zukünftige Hörgeräte werden zudem binaural sein und neben der modellgesteuerten Intelligente Hörgeräte der Zukunft Dynamikkompression eine an die jeweilige Kommuni- Ein wichtiges Beispiel für die Umsetzung von kationssituation optimal angepasste Stör-Reduktion Hörmodellen in die Praxis ist die Störgeräuschunter- mit automatischer Programmwahl aufweisen. drückung in Hörgeräten, die möglichst zu einer Wie- Eine Verbesserung dieser für den audiologischen derherstellung des „Cocktail-Party-Effektes“ bei Erfolg wichtigen Signalverarbeitungsleistungen von Schwerhörigen führen soll und die Auswirkungen der Hörgeräten ist u. a. Ziel des ab 1. Januar 2001 einge- reduzierten binauralen Interaktion und des erhöhten richteten Oldenburger Kompetenzzentrums HörTech internen Rauschens zumindest teilweise kompensieren (www.hoertech.de), das zu den acht Gewinnern des soll. Obwohl eine für alle möglichen akustischen Stör- BMBF-Wettbewerbs „Kompetenzzentren für die Medi- schall-Nutzschall-Konfigurationen wirksame Störunter- zintechnik“ zählt. drückung auch für andere Anwendungen in der Sprachkommunikation (z. B. automatische Spracher- Physik Journal 44 1 (2002) Nr. 4
Überblick * [15] J. Kießling, B. Kollmeier und G. Diller, Versorgung Gefördert von der DFG, dem BMBF und dem Land und Rehabilitation mit Hörgeräten, Thieme Verlag, Stuttgart 1997. Niedersachsen. Herzlicher Dank allen Mitarbeiterin- [16] M. Hansen und B. Kollmeier, J. Audio Eng. Soc. nen und Mitarbeitern der Medizinischen Physik, Uni- 48, 395 (2000). versität Oldenburg. [17] J. Tchorz und B. Kollmeier, J. Acoustical Soc. Am. 106, 2040 (1999). Literatur [18] T. Wittkop et al., Acustica united with acta acusti- [1] H. v. Helmholtz, Die Lehre von den Tonempfin- ca 83, 684 (1997) dungen als physiologische Grundlage fuer die Theorie der Musik, Vieweg, Braunschweig 1870 [2] G. Böhme und K. Welzl-Müller, Audiometrie. Hör- prüfungen im Erwachsenen- und Kindesalter,Ver- Der Autor lag Hans Huber, Bern 1998. Birger Kollmeier hat seit seiner Promo- [3] R.-P. Derleth, T. Dau und B. Kollmeier, Hearing tion in Physik und seinem Medizin-Stu- Research 159, 132 (2001). dium in Göttingen immer den Verdacht [4] S. Uppenkamp, J. Neumann, und B. Kollmeier, erregt, weder Fisch noch Fleisch zu sein. Hearing Research 78, 210 (1994). Dazu trägt die Ausrichtung seiner Ar- [5] H. Zenner, Hören, Thieme, Stuttgart 1994. beitsgebiete Hör-, Sprach- und Hirnfor- [6] C.E. Schreiner und G. Langner, Nature 388, 383 schung wesentlich bei. Obwohl er sich (1997) mit seiner Habilitation in Physik in Göt- [7] T. Dau, B. Kollmeier und A. Kohlrausch, J. Acoust. tingen und seiner Berufung an die Uni- Soc. Am. 102, 2892 (1997). versität Oldenburg als Professor für An- [8] M. R. Schroeder, Computer Speech: Recognition, gewandte Physik/Experimentalphysik eindeutig festlegte, Compression, Synthesis, Springer, Berlin 1999. ist sein Motto der Brückenschlag zwischen den Fächern [9] E. Zwicker und H. Fastl, Psychoacoustics — Facts und die Anwendungsorientierung geblieben: Mit der Abtei- and Models, Springer, Berlin 1990. lung Medizinische Physik, dem Europäischen Graduierten- [10] H. S. Colburn, in: Auditory Computation, Sprin- kolleg Neurosensorik, dem An-Institut Hörzentrum Olden- ger, New York 1996, S. 332. burg GmbH und dem Kompetenzzentrum HörTech hat er [11] J. Blauert, Spatial Hearing, MIT Press, Cambridge interdisziplinäre Strukturen aufgebaut, die er heute in Ol- 1997. denburg leitet. Ausgezeichnet wurde er u. a. mit dem Lo- [12] R. D. Patterson, M. Allerhand und C. Giguere, thar-Cremer-Preis der Dt. Gesellschaft für Akustik und J. Acoust. Soc. Am. 98, 1890 (1995) dem Forschungspreis Technische Kommunikation der Alca- [13] I. Holube und B. Kollmeier, J. Acoust. Soc. Am. tel-SEL-Stiftung. Sein Stolz gilt – neben den eigenen vier 100, 1703 (1996). Kindern – den bisher 25 „Doktorkindern“, die u. a. bei ca. [14] V. Hohmann und B. Kollmeier, in: Psychoacou- 70 % des Hörgeräte-Weltmarktes in der Entwicklung eine stics, Speech and Hearing Aids, World Scientific, wichtige Rolle spielen. Singapore 1996, S. 193. Physik Journal 1 (2002) Nr. 4 45
Sie können auch lesen