Cocktail-Partys und Hörgeräte: Biophysik des Gehörs

Die Seite wird erstellt Matthias Walther
 
WEITER LESEN
Cocktail-Partys und Hörgeräte: Biophysik des Gehörs
Überblick

                     Akustik

        Cocktail-Partys und Hörgeräte:
        Biophysik des Gehörs
                   Physikalisch inspirierte Hörmodelle weisen den Weg zu intelligenten Hörgeräten
                   Birger Kollmeier

Von aktiven, nichtlinearen Prozessen im Ohr
über numerische Hörmodelle bis hin zur Musik-
übertragung im Internet mit MP3 oder objekti-
ver Beurteilung der Sprachgüte von Handys:
Die Hör-Akustik hat unmittelbare Auswirkun-
gen auf unser tägliches Leben – nicht nur wenn
eine Hörstörung auftritt oder wenn man auf ei-
ner lebhaften Party nichts mehr versteht. Für
die Physik ist die Analyse der effektiven Funk-
tion des Gehörs als komplexes Gesamtsystem
interessant. Die Umsetzung dieser Analyse in
ein Hörmodell ermöglicht eine Vielzahl techni-
scher Anwendungen.

D
        ie Physik „wächst“ an den Rändern: Während         Störgeräusche wesentlich besser unterdrücken als es              Abb. 1:
        vor 20 Jahren Physiker, die sich mit neuronalen    den Geräten noch vor etwa zehn Jahren möglich war,               Auf einer Cocktail-
                                                                                                                            Party können
        Systemen oder Sinnesorganen beschäftigten,         versagen aber nach wie vor in akustisch „schwierigen“
                                                                                                                            Normalhörende
eher zu den Außenseitern zählten, ist die Beschäfti-       Situationen wie etwa einer Party. Um hier Lösungs-               die vielen Neben-
gung mit komplexen, nichtlinearen biologischen Syste-      möglichkeiten aufzuzeigen, muss das zugrundeliegende             geräusche unter-
men zu einem auch für den wissenschaftlichen Nach-         „System Ohr“ erst einmal analysiert werden.                      drücken und sich
wuchs attraktiven Feld geworden, das von der Interdis-                                                                      auf ein Gespräch
                                                                                                                            konzentrieren.
ziplinarität und der Anwendungsbreite physikalischer         Aufbau und Funktionsweise des Gehörs                           Schwerhörige
Methoden lebt. Nicht erst seit Helmholtzs frühen Ar-          Das Außen- und Mittelohr (vgl. Abb. 2) leitet den             haben dagegen
beiten über „Die Lehre von den Tonempfindungen“ [1]        Schall mit nur geringen Energieverlusten in das mit              große Probleme –
ist die Beschäftigung mit dem Hörsinn ein wichtiges        Flüssigkeit gefüllte Innenohr. Funktionsstörungen des            eine besondere
                                                                                                                            Herausforderung
Beispiel hierfür. Dieser Beitrag zeigt die Verbindung      Außen- und Mittelohres machen sich in einer Schall-
                                                                                                                            an die Kommuni-
auf zwischen der medizinischen Sichtweise des Hör-         leitungs-Schwerhörigkeit bemerkbar, die durch HNO-               kationsakustik!
vorgangs (und seinen möglichen Störungen) und der          ärztliche Eingriffe oder durch ein einfaches, lineares
physikalischen Sichtweise. Mögliche Anwendungen des        Hörgerät ausgeglichen werden können. Die eigentliche
quantitativen Zugangs zur Modellierung des Hörvor-         Umwandlung der Schallschwingungen in Nervenimpul-
gangs werden exemplarisch für die Bereiche Telekom-        se findet im Innenohr (Kochlea oder Hörschnecke)
munikation, Audio-Signalverarbeitung und digitale          statt. Die Hörschnecke ist der Länge nach durch die
Hörgeräte vorgestellt.                                     Basilarmembran unterteilt, wobei die auf der Basilar-
    Eine wesentliche Motivation für die Beschäftigung      membran angeordneten inneren und äußeren Haar-
mit dieser Thematik ist der „Cocktail-Party-Effekt“, der   zellen die mechano-elektrischen Wandler darstellen.
Partygästen die Konversation erleichtert und dessen        Störungen des Innenohrs oder der nachfolgenden neu-
Ausfall eines der schwerwiegendsten Probleme für           ronalen Strukturen führen zu der Schallempfindungs-
Schwerhörige darstellt: In einer störgeräuschbehafteten    Schwerhörigkeit, die wesentlich häufiger vorkommt
Umgebung (z. B. einer lebhaften Party) können sich         (ca. 15 % unserer Bevölkerung), aber leider auch pro-
Normalhörende relativ gut auf einen Sprecher konzen-       blematischer ist als die Schallleitungs-Schwerhörigkeit          Prof. Dr. Dr. Birger
                                                                                                                            Kollmeier, Medizini-
trieren und die Störgeräusche unterdrücken. Schwer-        [2].
                                                                                                                            sche Physik, Univer-
hörigen fällt dies jedoch besonders schwer, sodass sie        Das Problem liegt in der Nichtlinearität des Innen-           sität Oldenburg,
derartige Situationen und größere Menschenansamm-          ohrs (siehe Infokasten „Wie nichtlinear ist das Ohr?“),          26111 Oldenburg;
lungen meiden, was häufig zur sozialen Isolation führt.    die sich auch objektiv mit einem empfindlichen Mikro-            http://medi.uni-
Selbst die modernsten kommerziellen, digitalen Hör-        fon ausmessen lässt. Abbildung 3 zeigt das gemittelte            oldenburg.de
geräte können zwar in akustisch „einfachen“ Situatio-      Spektrum des akustischen Signals, das im abgeschlos-
nen (mit nur einer stationären Störquelle, die aus einer   senen Gehörgang eines normalhörenden Probanden
ganz anderen Richtung als das Nutzsignal kommt) die        gemessen werden kann, wenn die mit f1 und f2 gekenn-
                                                                                                 Physik Journal
                                                                                                 1 (2002) Nr. 4             39
                                                                                                 1617-9439/02/0404-39
                                                                                                 $17.50+50/0
                                                                                                 © WILEY-VCH Verlag GmbH,
                                                                                                 D-69451 Weinheim, 2002
Überblick
                           zeichneten reinen Sinustöne als Eingangssignale gege-              oder als andauerndes Ohrensausen („Tinnitus“) Aus-
                           ben werden. Die Verzerrungsprodukte (z. B. bei 2f1–f2)             druck einer Hörstörung ist.
                           werden vom Innenohr akustisch als eine Art Echo ab-                    Als wichtigste Quelle der Nichtlinearitäten im
                           gestrahlt („otoakustische Emissionen“, oto ist latei-              Innenohr und damit der otoakustischen Emissionen
                           nisch für Ohr) und verschwinden bei Hörstörungen                   gelten die Haarzellen, die die Bewegung der Basilar-
                           oder bei Unterbrechung der Sauerstoff-Zufuhr des In-               membran in eine elektrische Spannung umsetzen und
                           nenohrs. Die negative Dämpfung bei kleinen Auslen-                 dabei sogar Auslenkungen im Sub-Nanometer-Bereich
                           kungen der Basilarmembran und die Ankopplung an                    (!) hörbar machen. Die inneren Haarzellen dienen da-
                           äußere Reize lässt sich in guter Näherung durch einen              bei primär als „Mikrofone“, deren Ausgangsspannung
                           nichtlinearen van-der-Pol-Oszillator beschreiben [4].              über eine Erregung im Hörnerv zum Gehirn übertragen
                                                                                              wird. Die äußeren Haarzellen fungieren zusätzlich als
                                                                                              „Lautsprecher“, da sie durch Wechselspannung zu akti-
Abb. 2:
Das Ohr aus Sicht
                                                                                              ven Kontraktionen angeregt werden und quasi als Re-
des Mediziners                                                                                sonanzverstärker von Basilarmembran-Schwingungen
besteht (von links                                                                            die Empfindlichkeit und die Frequenzauflösung des
nach rechts) aus                                                                              Hörorgans steigern [5]. Die genauen mikromechani-
dem Außenohr
                                                                                              schen Mechanismen und die Kodierung akustischer In-
(Ohrmuschel,
Gehörgang, Trom-                                                                              formation im Nervensystem sind nach wie vor Gegen-
melfell), dem                                                                                 stand biophysikalischer Forschung. In physiologischen
Mittelohr (Pauken-                                                                            Messungen wird dazu die Reaktion des Körpers (z. B.
höhle mit den                                                                                 einer Nervenzelle im Tierexperiment) auf einen defi-
Gehörknöchelchen
Hammer, Amboss,
                                                                                              nierten akustischen Reiz erfasst. Beim Menschen kann
Steigbügel), dem                                                                              man dazu das Elektro-Enzephalogramm (EEG) bzw.
Innenohr (Gehör-                                                                              das Magneto-Enzephalogramm (MEG) als Spannungs-
schnecke                                                                                      bzw. Magnetfeldverlauf auf der Schädeloberfläche er-
(Cochlea) mit der
                                                                                              fassen oder mit funktioneller Kernspintomographie die
Basilarmembran)
und dem Hörnerv                                                                               (zeitlich nur wenig aufgelöste) Aktivierung bestimmter
sowie dem hier                                                                                Hirnareale. Bei psychophysikalischen Messungen wird
nicht skizzierten                                                                             dagegen die subjektive Reaktion einer Versuchsperson
zentralen auditori-                                                                           auf einen Reiz erfasst, wobei die Versuchsperson eine
schen System im
Gehirn (aus [18]).
                                                                                              vorgegebene Aufgabe durchführen muss (z. B. Erken-
                                                                                              nen eines Tons in einem zweimal angebotenen Rau-
                           Weil die otoakustischen Emissionen in der Regel nur                schen, von denen nur eines den Ton enthält). Durch
                           bei gesunden Ohren auftreten, werden sie auch als ob-              die sich gegenseitig ergänzende Information aus beiden
                           jektiver Hörtest bei Neugeborenen eingesetzt. Dazu be-             Bereichen besitzen wir relativ genaue Vorstellungen
                           schallt man das Ohr mit einem leisen „Klick“ und misst             über die Verarbeitungsprinzipien des zentralen Hör-
                           Zeitverzögerung, Frequenzspektrum und Reproduzier-                 systems im Gehirn:
                           barkeit des Echos. Otoakustische Emissionen können                 왘 Frequenzabbildung: Im Innenohr werden hohe Fre-
                           auch ohne äußeren Reiz („spontan“) im abgeschlosse-                quenzen an der Basis der Kochlea abgebildet, niedrige
                           nen Gehörgang mit niedrigen Schalldruckpegeln auf-                 Frequenzen an der Spitze. Gemäß dieser Frequenz-
                           treten (Hörbeispiel 2) #) und sind normalerweise unhör-            Orts-Transformation werden auf allen Stationen der
                           bar. Sie weisen keinerlei Beziehung zu dem subjektiv               Hörbahn benachbarte Frequenzen an benachbarten
                           empfundenen „Fiepen“ im Ohr auf, das sporadisch                    Orten verarbeitet.
                           oder nach einer Lärmbelastung bei Gesunden auftritt                왘 Einhüllenden-Extraktion und Dynamikkompression:

                            Wie nichtlinear ist das Ohr?
                            Dass die Funktion des nor-       Mittel- und Innenohres) ei-      im Gehirn weitgehend aus-       Übersteuerung). Bei Innen-
                            malen Innnohrs hochgradig        nen abwärts verlaufenden         geglichen. Bei natürlichen      ohr-Störungen entfällt die
                            nichtlinear ist, lässt sich an   Sweep („kubischer Differenz-     (breitbandigen) Signalen        periphere Dynamik-Kom-
#)
   Die in diesem Artikel    folgendem einfachen Hör-         ton“ 2 f 1–f 2) und einen Auf-   werden die Verzerrungspro-      pression. Die auf eine
erwähnten Hörbeispiele      experiment mit einem Paar        wärts-Sweep mit niedrigerer      dukte nämlich von den stär-     funktionierende Kompres-
sind unter http://medi.     Stereolautsprecher demon-        Frequenz („quadratischer         keren Komponenten des Ein-      sion eingestellte Signalver-
uni-oldenburg.de/de-        strieren (Hörbeispiel 1) #):     Differenzton“ f 2–f 1) wahr.     gangs-Schallsignals bei der     arbeitung im Gehirn bleibt
mos/pj/ und www.pro-        Auf einem Lautsprecher wird         Diese so genannten Ver-       jeweiligen Frequenz verdeckt    aber bestehen, sodass das
physik.de/ Phy/PJ/koll-
meier.html abrufbar.
                            ein konstanter Sinuston von      zerrungsprodukte werden          („maskiert“), sodass sie un-    Gesamtsystem „effektiv
Zum Anhören sind eine       f 1 = 2 kHz abgespielt. Mit      durch eine kompressive           hörbar sind. Dies führt zu-     nichtlinear“ wird [3]. Dies
Soundkarte und Laut-        dem zweiten Lautsprecher         Nichtlinearität im Innenohr      sammen mit anderen Effek-       liefert eine Erklärungsmög-
sprecherboxen oder          wird dagegen ein Ton mit ei-     erzeugt: Für schmalbandige       ten zu einer „effektiven        lichkeit für den gestörten
Kopfhörer erforderlich.     ner aufsteigenden Frequenz       Signale ist die dort angeregte   Linearität“ unserer Schall-     Cocktail-Party-Effekt bei
                            f 2 („Sweep“) zwischen 2 kHz     Schwingung proportional zu       Wahrnehmung. Sie ist eine       Schwerhörigen: Möglicher-
                            und 2,8 kHz erzeugt. Werden      einer Potenzreihe des Ein-       wichtige Voraussetzung für      weise interagieren bei der ge-
                            nun beide Lautsprecher           gangssignals, wobei die dritte   das Trennen von überlager-      störten Schallwahrnehmung
                            gleichzeitig angeschaltet (li-   Potenz zum kubischen Diffe-      ten akustischen „Objekten“      die verschiedenen akusti-
                            neare Addition des Schallfel-    renzton führt. Allerdings        und lässt uns zudem selbst      schen Objekte nichtlinear
                            des in der Luft), nimmt man      wird diese Nichtlinearität       kleinste Nichtlinearitäten im   miteinander und können da-
                            subjektiv (je nach Lautstärke    normalerweise in der nach-       Schallsignal erkennen (z. B.    her nicht mehr so getrennt
                            der beiden Stimuli und Funk-     folgenden Signalverarbeitung     den „Klirrfaktor“ der HiFi-     werden wie bei Normal-
                            tionszustand des eigenen         und durch kognitive Prozesse     Anlage kurz vor deren           hörenden.

                           Physik Journal
                      40   1 (2002) Nr. 4
Überblick
In jedem Frequenzband, das zu einem bestimmten Ort        nung und Interpretation der „internen Repräsentation“
auf der Basilarmembran gehört, überträgt der Hörnerv      des Schalls. Andere Funktionsblöcke (z. B. das interne
nicht mehr die vollständige Feinstruktur mit der Pha-     Rauschen) und die funktionelle Gestaltung und Para-
seninformation des Eingangssignals, sondern approxi-      meterwahl sämtlicher Blöcke stammen dagegen aus
mativ seine Einhüllende, d. h. die langsamer schwan-      psychoakustischen Experimenten, zu deren Vorhersage
kende momentane Schallintensität. Dabei wird ein          das Modell primär eingesetzt wird. Ebenso stammen
sehr großer Dynamikbereich von bis zu 120 dB Pegel-       die hypothetischen Funktionsstörungen, die bei einem
differenz zwischen Hörschwelle und Unbehaglichkeits-      sensorineuralen Hörverlust auftreten können (Stern-
schwelle erreicht, obwohl jedes einzelne beteiligte       chen in Abb. 4), aus audiologischen Messungen mit
Neuron nur maximal etwa 40 dB überdeckt. Die Me-          schwerhörigen Patienten.
chanismen der Adaptation (Anpassen der Empfindlich-
keit eines Neurons an den gerade vorliegenden mittle-
ren Eingangspegel) und der Umsetzung der Schall-
intensität in einen subjektiven Lautheitseindruck sind
noch nicht abschließend geklärt.
왘 Modulationsabbildung: Innerhalb jedes Frequenz-
bandes wird die Signal-Einhüllende in verschiedene
Amplituden-Modulationsfrequenzen aufgespalten. Da-
mit werden über sämtliche Frequenzen hinweg die ver-
schiedenen Rhythmen des Eingangssignals, aber auch
periodische Zeitstrukturen (z. B. die Grundfrequenz
bei Sprachlauten) systematisch auf benachbarte Ner-
venzellen im Gehirn abgebildet. Diese zweidimensio-
nale Abbildung (Mittenfrequenz versus Modulations-
frequenz) wurde aufgrund von physiologischen Mes-         Abb. 3:
sungen gefunden [6] und anhand psychoakustischer          Das „Echo“ des Innenohrs. Angeboten werden im abgeschlosse-
Messungen und Modelle bestätigt [7].                      nen Gehörgang zwei Sinustöne bei den Frequenzen f 1 und f 2.
                                                          Bei der Schallaufnahme mit einem empfindlichen Mikrofon
왘 Binaurale (räumliche) Abbildung: Um den Ort bzw.
                                                          erscheint im hier gezeigten gemittelten Spektrum bei gesundem
die Einfallsrichtung einer Schallquelle zu ermitteln,     Gehör zusätzlich das kubische Verzerrungsprodukt bei 2f 1–f 2.
wertet das Gehirn die zwischen beiden Ohren auftre-
tende Laufzeit- und Pegeldifferenz aus und setzt sie in      Um den prinzipiellen Rahmen des Modells in ein
eine „innere Karte“ der akustischen Umwelt um. Dabei      konkretes, numerisches Verarbeitungsmodell umzuset-
wird eine Winkelauflösung von bis zu 1 Grad und eine      zen, sind umfangreiche theoretische und experimentel-
Zeitgenauigkeit von bis zu 20 ms erreicht – eine der      le Arbeiten notwendig. Typischerweise wird dem Mo-
phantastischsten Leistungen unseres Gehörs! (Siehe        dell am Eingang dasselbe Signal präsentiert wie der
Infokasten auf der folgenden Seite).                      Versuchsperson, etwa ein Ton, versteckt im Rauschen.
                                                          Vor dem letzten Block des Modells bildet sich dieses
  Modelle der „effektiven“ Signal-                        Eingangssignal zu jedem Zeitpunkt als mehrdimensio-
  verarbeitung                                            nale Intensitätsverteilung von z. B. Frequenz, Modula-
   Aus Sicht der Physik möchte man vor allem die Ge-      tionsfrequenz und binauraler Komponente ab. Aus der
setzmäßigkeiten und Mechanismen verstehen, die mög-       Ähnlichkeit des Musters mit einem zuvor gespeicherten
lichst vielen der beobachtbaren Phänomene zugrunde        Muster eines deutlich aus dem Rauschen herausragen-
liegen, während eine detaillierte Nachbildung jeder       den Tones berechnet nun der zentrale Mustererkenner
einzelnen Nervenzelle zunächst nicht im Vordergrund
steht. Ein wichtiges Anliegen der physikalischen Hör-
forschung ist daher die Entwicklung von quantitativen
Hörmodellen, die mit einer möglichst kleinen Zahl von
Annahmen und einzustellenden Parametern eine mög-
lichst große Variationsbreite von Experimenten quanti-
tativ vorhersagen und anhand „kritischer“ Experimente
bestätigt oder falsifiziert werden können. Obwohl die-
ser Modellansatz damit von vornherein starken Ein-
schränkungen unterliegt, kann er unser derzeitiges
Wissen über die „effektive“ Verarbeitung akustischer
Information überprüfbar zusammenfassen und zu ei-
nem funktionalen Verständnis des Hörvorgangs führen.
   Der prinzipielle Aufbau eines derartigen Modells der
„effektiven Verarbeitung“ im auditorischen System ist     Abb. 4:
in Abb. 4 dargestellt. Einige der Funktionsblöcke wur-    Das Ohr aus Sicht des Physikers ist ein Modell der „effektiven“
                                                          Verarbeitung im auditorischen System. Es ist durch eine Reihe
den direkt aus physiologischen Erkenntnissen abgelei-
                                                          von parallelen, linearen und nichtlinearen Signalverarbeitungs-
tet. So wird z. B. die Funktion der Basilarmembran als    Operationen gekennzeichnet, die die Transformation vom akus-
„effektive“ Bank von Bandpassfiltern modelliert, die      tischen Signal in seine „interne Repräsentation“ im Gehirn
„effektive“ Funktion von Haarzellen und auditori-         beschreiben. Diese Repräsentation dient unserem Gehirn als
schem Nerv als Kompression und Einhüllendenbil-           Basis für höhere kognitive Leistungen wie das Verstehen von
                                                          Sprache, wobei im Modell die Minderung dieser Leistungen
dung, die Funktionsprinzipien des Hirnstamms als Mo-      allein durch die Unschärfe der internen Repräsentation ange-
dulations-Filterbank und binaurale Verarbeitung, und      setzt wird. Mögliche Störungen dieser Repräsentation bei
schließlich die Funktion des Kortex als Mustererken-      Schwerhörigkeit sind durch Sternchen gekennzeichnet.
                                                                                                      Physik Journal
                                                                                                      1 (2002) Nr. 4        41
Überblick
                     die Wahrscheinlichkeit, dass der Ton von der Versuchs-           왘 Das Boston-Modell zur binauralen Informations-
                     person wahrgenommen wird. Diese Wahrnehmbarkeit                  verarbeitung von Colburn und Mitarbeitern beschreibt
                     wird dann mit Experimenten verglichen, bei denen die             dagegen die verschiedenen Leistungen des binauralen
                     Versuchsperson exakt dieselben Signale vorgespielt be-           (zweiohrigen) Hörens unter expliziter Modellierung
                     kommt und dieselbe Erkennungsaufgabe durchführt                  von Neuroneneigenschaften [10]. Andere binaurale
                     wie der Computer. Anschließend kann das Modell                   Funktionsmodelle (z. B. das Bochumer Modell von
                     durch die Vorhersage von Hörexperimenten mit vielen              Blauert und Mitarbeitern [11]) benutzen nachrichten-
                     unterschiedlichen Signalen und Wahrnehmungsaufga-                technische Funktionselemente, um charakteristische
                     ben überprüft und iterativ verbessert werden [7].                Eigenschaften der binauralen Informationsverarbeitung
                        Der Teil des Modells vor dem Mustererkenner ent-              im Gehirn funktionell zu modellieren.
                     spricht beim Menschen der Verarbeitung eines akusti-             왘 Das Modell der Cambridge-Arbeitsgruppe um Patter-
                     schen Signals zu einer „internen Repräsentation“, etwa           son und Meddis setzt dagegen Schwerpunkte bei der
                     einem neuronalen Erregungsmuster. Der kognitive Ap-              Tonhöhenerkennung und dem Übergang von der Wahr-
                     parat, mit dem der Mensch solch ein Erregungsmuster              nehmung aperiodischer Vorgänge in periodische Vor-
                     interpretiert, wird durch den Mustererkenner model-              gänge mit zugehörigem „pitch“ [12].
                     liert. Am Ende dieses Prozesses steht eine Aussage wie           왘 Das „Oldenburger Perzeptionsmodell“ legt einen be-
                     „Die Versuchsperson hört den Ton.“ Sie ermöglicht den            sonderen Schwerpunkt auf die zeitlichen Eigenschaften
                     Vergleich von Theorie und Experiment. Dabei setzt je-            der Signalverarbeitung im Gehör und bildet eine relativ
                     de Forschungsgruppe unterschiedliche Schwerpunkte                große Zahl von psychoakustischen Effekten quantitativ
                     im Detaillierungsgrad einzelner Funktionsblöcke des              nach. Es wurde zunächst am III. Physikalischen Insti-
                     Modells und bei der Klasse von vorhersagbaren Experi-            tut in Göttingen und ab 1993 im Graduiertenkolleg
                     menten:                                                          „Psychoakustik“ der Universität Oldenburg von Dau et
                     왘 Das in München von Zwicker und Mitarbeitern ent-               al. [7] als Modell der „effektiven“ Signalverarbeitung
                     wickelte Lautheitsmodell [9] mit seinen Erweiterungen            im auditorischen System entwickelt, und auf die Vor-
                     für die Beschreibung von Schwerhörigkeit und Schall-             hersage von Sprachverständlichkeit bei Normal- und
                     fluktuationen beschreibt beispielsweise die primär von           Schwerhörenden [13] sowie das binaurale Hören er-
                     der Schallintensität, dem Schallspektrum und der                 weitert. Das Modell basiert auf einer geringen Zahl von
                     Schalldauer abhängige Lautheitswahrnehmung, wobei                Annahmen und Parametern, die in wenigen, „kriti-
                     die Blöcke „Modulationsfilterbank“, „Internes Rau-               schen“ Experimenten festgelegt und für die quantitative
                     schen“ und „binaurale Störschallunterdrückung“ aus               Beschreibung anderer Experimente nicht mehr variiert
                     Abb. 4 entfallen.                                                werden. Eine Stärke des Oldenburger Modells ist die
                                                                                      „optimale“ Mustererkennung: Der Algorithmus des
Das Ohr als Spektralapparat oder als Zeit-Analysator?                                 Mustererkenners in Abb. 4 wird mithilfe empirischer
Während frühere Hörtheorien und Er-         Zeitstruktur stärker beeinträchtigt als   Daten „geschult“. Auf diese Weise gehen Aspekte wie
klärungen des Sprachverstehens vor-         durch eine spektrale Verformung: So       Aufmerksamkeit und Lernen nicht mehr explizit in die
wiegend von einer spektralen Sicht-         nimmt die Sprachverständlichkeit bei      Modellierung ein, weil der „optimale Detektor“ bereits
weise des Hörvorgangs ausgingen             periodisch unterbrochener Sprache ab      die „interne Repräsentation“ des Schallsignals perfekt
(z. B. Unterscheidung der Sprach-           einer bestimmten Unterbrechungsrate       interpretiert. Die gesamte Ungenauigkeit des Hörvor-
Vokale durch die Lage der spektralen        sehr stark ab. Wenn in die zeitlichen
                                                                                      gangs wird auf die Nichtlinearität der Signalverarbei-
Maxima/Formanten) und den zeit-             Lücken jedoch anstelle der Original-
lichen Aspekt der Hörwahrnehmung            Sprache ein Rauschen mit festem Spek-     tung und das interne, neuronale Rauschen bei der
als sekundär ansahen, verhält es sich       trum gefüllt wird, ist die Zeitstruktur   Transformation vom akustischen Signal bis hin zu der
bei modernen Hörtheorien genau um-          nur noch relativ wenig gestört und un-    internen Repräsentation reduziert. Dieses Vorgehen
gekehrt: Das Ohr ist nicht nur das          ser Gehirn ist in der Lage, die Sprach-   hat den entscheidenden Vorteil, dass man sich nur auf
schnellste Sinnessystem des Menschen,       information wieder zusammenzusetzen       denjenigen Teil der Wahrnehmungsleistungen be-
es kann auch die einem akustischen          (Hörbeispiel 4): Das Abwechseln von
                                                                                      schränkt, der reproduzierbaren psychophysikalischen
Signal aufgeprägte zeitliche Informati-     Sprachsegmenten mit Rauschsegmenten
on sehr genau verfolgen. So lassen sich     hört sich wie stark verrauschte, konti-
                                                                                      Experimenten zugänglich ist und sich zudem mögli-
zeitliche Lücken ab einer Dauer von         nuierliche Sprache an, d. h. durch Zu-    cherweise physiologisch bestätigen lässt. Komplexe
ca. 5 ms in einem breitbandigen Signal      fügen (!) von Rauschen wird die Spra-     psychische Einflussfaktoren der menschlichen Wahr-
sicher detektieren. Begrenzt wird die       che „entstört“!                           nehmung akustischer Ereignisse werden in der Model-
Zeitauflösung durch die Vor- und               Die plausibelste Hörtheorie ist da-    lierung dagegen nicht berücksichtigt.
Nachverdeckung, d. h. ein Testsignal        her eine Kombination der spektralen
kann ab ca. 10 ms vor und bis zu            und zeitlichen Analyse im Sinne einer
200 ms nach einem (lauteren) Maskie-        „Demodulation“ der in jedem Fre-
                                                                                        Modellierung gestörter Hörfunktionen
rungssignal nicht mehr gehört werden.       quenzband vorhandenen Zeit-Informa-          Ein möglichst quantitatives Verständnis der gestör-
Das liegt an der Trägheit des zentralen     tion durch das Innenohr mit anschlie-     ten Signalverarbeitung bei Schallempfindungs-Schwer-
Hörsystems bei der Anpassung an ei-         ßender Einhüllenden-Analyse in Mo-        hörigkeit ist sowohl für die Hördiagnostik als auch für
nen neuen Pegel.                            dulationsfrequenzbändern im Gehirn.       die optimale Rehabilitation, z. B. mit „intelligenten“
   Ein Beispiel gegen die rein spektrale    Besondere Bedeutung kommt dabei           Hörgeräten, unabdingbar. Wegen der Vielzahl der ge-
Sichtweise ist die Verständlichkeit von     zeitlichen Merkmalen und Modulati-
                                                                                      störten Einzelleistungen bei Schwerhörigkeit ist es eine
„flat-spectrum speech“ [8], d. h. von ge-   onsfrequenzen zu, die in mehreren
filterter Sprache, deren Kurzzeitspek-      Frequenzbändern gleichzeitig auftre-      besondere Herausforderung, die ursächlichen oder
tren ohne spektrale Information, also       ten. Dadurch ist das Ohr in der Lage,     primären Defizite der Hör-Signalverarbeitung von den
flach sind (Hörbeispiel 3). Ein anderes     akustische „Objekte“ (zum Beispiel        daraus ableitbaren Defiziten anderer Hörfunktionen zu
Beispiel für Sprachverstehen ohne           Sprache) auch bei sehr ungünstigem        trennen. Im Rahmen des in Abb. 4 dargestellten Mo-
intaktes Sprachspektrum ist Bandpass-       Signal-zu-Rausch-Verhältnis noch si-      dellschemas lassen sich nun die vier wichtigsten primä-
gefilterte Sprache, die in einer spektra-   cher zu erkennen, bei dem das mittlere
                                                                                      ren Komponenten von Hörstörungen (Sterne in Abb. 4)
len Lücke eines Rauschens dargeboten        Sprachspektrum schon vollständig ver-
wird. Umgekehrt wird das Sprachver-         deckt ist.
                                                                                      wie folgt charakterisieren:
stehen durch eine Veränderung der                                                     1) Abschwächungswirkung des Hörschadens (lineare
                                                                                      Dämpfung): Eine Schallleitungs-Schwerhörigkeit oder
                     Physik Journal
               42    1 (2002) Nr. 4
Überblick
ein Ausfall der inneren Haarzellen führt vorwiegend zu      왘 Signalkodierung: Die Bitraten-Reduktion bei der
einer Sensitivitäts-Verminderung, d. h. einer effektiven    Speicherung von Sprach- und Audiodaten, z. B. mit
„Abschwächung“ des Schalls. Sie kann durch eine ent-        dem MP3-Verfahren, kodiert das akustische Signal so,
sprechende lineare Verstärkung des Schalls kompen-          dass möglichst geringe Abweichungen zwischen Origi-
siert werden. Dies bewirkt aber meistens keine zufrie-      nal und dekodiertem Signal auf der „perzeptiven“ Ebe-
denstellende Wiederherstellung des Hörvermögens, so-        ne am Ausgang des Hörmodells auftreten, obwohl die-
dass weitere Komponenten betrachtet werden müssen.          se Signale auf der akustischen Ebene am Eingang des
2) Kompressionsverlust: Ein Ausfall der äußeren Haar-       Hörmodells sehr unterschiedlich sein können. Bei der
zellen führt zusätzlich zur Abschwächung zu einer           standardisierten MP3-Kodierung wird im Wesentlichen
„Verzerrung“: Bei niedrigen Pegeln entfällt die aktive      das von Zwicker vor mehreren Jahrzehnten entwickelte
Verstärkung, sodass sich der große Dynamikbereich           Lautheits- und Maskierungsmodell verwendet, um
der akustischen Eingangssignale nicht mehr vollständig      unhörbare Signalbestandteile zu eliminieren und das
im Gehirn abbilden lässt. Dies macht sich beim für die      Quantisierungsrauschen hinter den hörbaren Kompo-
meisten Innenohr-Schwerhörigen typischen „Recruit-          nenten zu „verstecken“.
ment“-Phänomen bemerkbar (Hörbeispiel 5), bei dem           왘 Signalqualitäts-Bewertung: Der Unterschied am Aus-
nach dem subjektiven Eindruck „zu leise“ bei leichter       gang des Hörmodells wird auch bei der objektiven Gü-
Erhöhung des Schallpegels bereits der Eindruck „zu          te-Beurteilung von kodierten bzw. nichtlinear verarbei-
laut“ folgt. Diese gestörte Lautheitswahrnehmung kann       teten Sprach- und Audiosignalen ausgewertet, die bis-
durch eine Multiband-Dynamikkompression in moder-
nen Hörgeräten nur teilweise kompensiert werden, da
z. B. die Bandbreiten-Abhängigkeit der unterschiedli-
chen Lautheitswahrnehmung bei Normal- und Schwer-
hörigen nicht berücksichtigt wird. Die Entwicklung
adäquater Lautheitsmodelle für Schwerhörige und ihre
Integration in Hörgeräte ist daher Gegenstand laufen-
der Forschung [14].
3) Binauraler Hörverlust: Normalhörende können die
an beiden Ohren eintreffenden Signale im Gehirn ver-
gleichen und durch binaurale (beidohrige) Signalverar-
beitung den wahrnehmbaren Nachhall verringern und
unerwünschte Schalleinfallsrichtungen ausblenden. Bei
Schwerhörigen kann aber – weitgehend unabhängig
von den übrigen bisher genannten Faktoren der Hör-
störung – genau diese binaurale Signalverarbeitung
gestört sein. Dies bedingt u. a. die eingangs erwähnte
Störung des „Cocktail-Party-Effektes“. In der derzeiti-     Abb. 5:
gen Routine-Diagnostik und Hörgeräteversorgung mit          Sprachqualitäts-Vorhersage (aus [16]): Die Ordinate zeigt das
                                                            subjektive Qualitätsurteil einer Gruppe normalhörender Pro-
unabhängigen Geräten auf beiden Seiten wird aller-          banden (als mean opinion score, MOS) für eine Test-Datenbank
dings dieser Faktor noch nicht berücksichtigt. Erst         von verschiedenen Mobilfunk-Verbindungen. Die Abszisse zeigt
„echt“ binaurale Hörgeräte versprechen Abhilfe.             die Vorhersage dieser Daten auf der Basis des Oldenburger
4) Zentrale Hörstörung: Selbst bei nur gering gestörter     Perzeptionsmodells für verschiedene Kodierungsverfahren
                                                            (Buchstaben). Die hohen Korrelations-Indices r und rs bei
Signalverarbeitung durch das Hörsystem kann bei
                                                            niedriger Standard-Abweichung (SD) zeigen eine gute objektive
Schwerhörigen die Auflösung der internen Repräsentati-      Vorhersage der subjektiven Ergebnisse an.
on verringert sein, sodass die vom Gehör aufgenomme-
nen und intern repräsentierten Schallsignale nicht mehr     her nur subjektiv mit aufwändigen Hörexperimenten
adäquat ausgewertet und interpretiert werden können.        ermittelt werden konnte. Beispielsweise lässt sich die
Dieser Effekt lässt sich ebenso wie andere Unzuläng-        wahrgenommene akustische Qualität einer Handy-
lichkeiten der zentralen Auswerte-Einheit, z. B. geringe    Mobilfunkverbindung durch das Oldenburger Perzep-
Aufmerksamkeit, mangelndes Training, am ehesten             tionsmodell mit dem Computer vorhersagen (objekti-
durch ein erhöhtes „internes Rauschen“ modellieren.         ver Parameter qc aufgetragen auf der Abszisse in
   Sämtliche der hier genannten Komponenten tragen          Abb. 5). Der Vergleich mit dem subjektiven „Mean opi-
bei dem individuellen Patienten in unterschiedlichem        nion score“ auf der Ordinate in Abb. 5 zeigt eine hohe
Maße zu der Hörstörung und beispielsweise zur Verrin-       Treffsicherheit der objektiven Vorhersage [16].
gerung des Sprachverstehens in Störgeräuschen bei.          왘 Sprach- und Mustererkennung: Dem Computer wer-
Daher ist es das Ziel aktueller Forschungsarbeiten, effi-   den „Ohren verliehen“, indem nicht eine technische
ziente Messmethoden zu entwickeln, mit denen sich je-       Darstellung des Sprachsignals, sondern die „interne
de der Komponenten erfassen lässt, sowie das Modell         Repräsentation“ vom Ausgang des Gehörmodells als
so anzupassen, dass es das jeweilige Hörvermögen je-        Eingangssignal für einen Spracherkennungs- bzw.
des individuellen Patienten korrekt beschreibt [15].        Mustererkennungs-Algorithmus benutzt wird. Die
                                                            Robustheit unseres Ohres gegenüber Störgeräuschen
  Anwendungen des Perzeptionsmodells                        und Änderungen der Raumakustik soll damit auf den
   Unter der Voraussetzung, dass das oben beschriebe-       Computer übertragen werden: Abbildung 6 zeigt die
ne Perzeptionsmodell eine valide und objektive Be-          Worterkennungsrate in Prozent als Funktion des Signal-
schreibung der Transformation des akustischen Signals       zu-Rausch-Verhältnisses. Bei der konventionellen
in seine „interne Repräsentation“ im menschlichen Ge-       Sprachvorverarbeitung mit dem sog. MFCC-Verfahren
hirn darstellt, erschließen sich eine Reihe von techni-     (gestrichelte Linie) sinkt die Erkennungsrate mit zuneh-
schen Anwendungen:                                          mendem Rauschen viel eher als bei der Sprachvorver-
                                                                                                      Physik Journal
                                                                                                      1 (2002) Nr. 4        43
Überblick
                 arbeitung mit dem Oldenburger Perzeptionsmodell                  kennung) sehr erstrebenswert ist, zählt dies zu den
                 (durchgezogene Linie, aus [17]). Bei einer stark einge-          großen, noch ungelösten Problemen der Akustik.
                 schränkten Zahl von möglichen Alternativen des zu er-                Einen vielversprechenden Ansatz bietet die Analyse
                 kennenden Wortes oder Satzes erreicht der Computer               mit dem so genannten Amplituden-Modulations-Spek-
                 sogar die Erkennungsleistung des menschlichen Gehörs             trogramm (AMS), das in jedem Frequenzband die zeit-
                 – Anlass genug, das Gehörmodell in Zusammenarbeit                lichen Fluktuationen in verschiedene Modulations-Fre-
                 mit der Informatik als Computer-Chip zu entwerfen                quenzen zerlegt. Es entspricht der bereits in Abb. 4
                 („Silicon Ear“).                                                 dargestellten Modellvorstellung, dass in jedem audito-
                                                                                  rischen Frequenzband die zeitliche Einhüllenden-
                                                                                  Struktur durch eine Modulations-Filterbank ausgewer-
                                                                                  tet wird. In dieser Darstellung ist Sprache durch in
                                                                                  mehreren Frequenzbändern vorhandene kohärente
                                                                                  Modulationen im Modulationsfrequenzbereich von
                                                                                  4 Hz (Silbenfrequenz) und mehreren hundert Hz
                                                                                  (Sprachgrundfrequenz mit Harmonischen) gekenn-
                                                                                  zeichnet. Störgeräusche weisen hingegen in der Regel
                                                                                  weniger kohärente Modulationen und auch ein anderes
                                                                                  Modulationsspektrum auf, sodass sich diese Unter-
                                                                                  schiede gut für die Störgeräuschunterdrückung ausnut-
                                                                                  zen lassen. Der Vorteil dieses Verfahrens ist seine
                                                                                  Anwendbarkeit auch für monaurale (einkanalige)
                                                                                  Mikrofonsignale und für fluktuierende Hintergrund-
                                                                                  geräusche (Hörbeispiel 6). Der Nachteil des Verfahrens
                 Abb. 6:                                                          ist jedoch der hohe Rechenaufwand. Außerdem versagt
                 Robuste Spracherkennung (aus [17]): Dargestellt ist die Wort-
                 erkennungsrate eines künstlichen Spracherkenners unter Ruhe-     es, wenn das Hintergrundgeräusch selbst Sprache (z. B.
                 bedingungen („clean“) und als Funktion des Signal-zu-Rausch-     ein weiterer Sprecher) ist.
                 Verhältnisses für Sprache in Baustellenlärm für die konventio-       Daher bietet ein binaurales Verfahren Vorteile, bei
                 nelle Sprachvorverarbeitung (MFCC, gestrichelte Linie) und für   dem die Signale an beiden Ohren aufgenommen wer-
                 das Oldenburger Perzeptionsmodell (durchgezogene Linie).
                                                                                  den und in einer zentralen Recheneinheit so gefiltert
                                                                                  werden, dass die von vorn kommenden Signalanteile,
                                                            Abb. 7:               d. h. der Nutzschall, verstärkt und der von anderen
                                                            Digitales, binaura-
                                                            les Prototyp-Hör-
                                                                                  Richtungen kommende Störschall unterdrückt wird
                                                            gerät, das im         [18]. Damit wird das binaurale Hören gewissermaßen
                                                            Rahmen eines          simuliert. Ein derartiges binaurales Hörgerät hat deut-
                                                            BMBF-Verbund-         liche Vorteile gegenüber zwei unabhängigen Hörgerä-
                                                            projekts zusammen
                                                                                  ten auf beiden Seiten und erst recht gegenüber einem
                                                            mit der FH Nürn-
                                                            berg und der Uni-     monauralen Hörgerät. Ein binaurales Hörgerät ist zwar
                                                            versität Gießen       noch nicht kommerziell, zusammen mit der FH Nürn-
                                                            entwickelt wurde.     berg, der Uni Gießen und weiteren Partnern wurde
                                                                                  aber bereits ein tragbarer Prototyp entwickelt (Abb. 7
                                                                                  und Hörbeispiel 7 für die Verarbeitungsleistung binau-
                                                                                  raler Hörgeräte-Algorithmen). Für ein kommerzielles
                                                                                  binaurales Hörgerät ist jedoch eine drahtlose Verbin-
                                                                                  dung zwischen den Geräten nötig, die wegen der erfor-
                 왘 „Intelligente“ Hörgeräte: Ziel der Signal-Manipula-            derlichen Stromaufnahme noch eine große technologi-
                 tionen im Hörgerät sollte es sein, den Unterschied der           sche Herausforderung darstellt.
                 „internen Repräsentation“ am Ausgang des Hörmodells                  Wie wird die Entwicklung der Hörgeräte weiterge-
                 zwischen Normal- und Schwerhörigen zu minimieren.                hen? Es ist abzusehen, dass das Hörgerät nur noch ei-
                 Dies setzt jedoch neben dem Modell für das normale               ne Option eines „Personal Communication Devices“
                 Gehör auch ein Modell des gestörten Hörvermögens                 der Zukunft darstellen wird, in dem Mensch-Maschine-
                 voraus, das individuell angepasst wird. Obwohl inzwi-            und Mensch-Mensch-Kommunikationsfunktionen wie
                 schen digitale Hörgeräte mit einem vergleichbaren                MP3-Player, Handy, Laptop und eben Hörgerät in ei-
                 Konzept auf dem Markt sind, ist dies noch ein Bereich            nem tragbaren und durch Sprachsteuerung bedienba-
                 aktueller Forschungs- und Entwicklungsarbeiten.                  ren Gerät verschmelzen. Zukünftige Hörgeräte werden
                                                                                  zudem binaural sein und neben der modellgesteuerten
                     Intelligente Hörgeräte der Zukunft                           Dynamikkompression eine an die jeweilige Kommuni-
                    Ein wichtiges Beispiel für die Umsetzung von                  kationssituation optimal angepasste Stör-Reduktion
                 Hörmodellen in die Praxis ist die Störgeräuschunter-             mit automatischer Programmwahl aufweisen.
                 drückung in Hörgeräten, die möglichst zu einer Wie-                  Eine Verbesserung dieser für den audiologischen
                 derherstellung des „Cocktail-Party-Effektes“ bei                 Erfolg wichtigen Signalverarbeitungsleistungen von
                 Schwerhörigen führen soll und die Auswirkungen der               Hörgeräten ist u. a. Ziel des ab 1. Januar 2001 einge-
                 reduzierten binauralen Interaktion und des erhöhten              richteten Oldenburger Kompetenzzentrums HörTech
                 internen Rauschens zumindest teilweise kompensieren              (www.hoertech.de), das zu den acht Gewinnern des
                 soll. Obwohl eine für alle möglichen akustischen Stör-           BMBF-Wettbewerbs „Kompetenzzentren für die Medi-
                 schall-Nutzschall-Konfigurationen wirksame Störunter-            zintechnik“ zählt.
                 drückung auch für andere Anwendungen in der
                 Sprachkommunikation (z. B. automatische Spracher-
                 Physik Journal
            44   1 (2002) Nr. 4
Überblick
                          *                              [15] J. Kießling, B. Kollmeier und G. Diller, Versorgung
   Gefördert von der DFG, dem BMBF und dem Land               und Rehabilitation mit Hörgeräten, Thieme Verlag,
                                                              Stuttgart 1997.
Niedersachsen. Herzlicher Dank allen Mitarbeiterin-
                                                         [16] M. Hansen und B. Kollmeier, J. Audio Eng. Soc.
nen und Mitarbeitern der Medizinischen Physik, Uni-           48, 395 (2000).
versität Oldenburg.                                      [17] J. Tchorz und B. Kollmeier, J. Acoustical Soc. Am.
                                                              106, 2040 (1999).
Literatur                                                [18] T. Wittkop et al., Acustica united with acta acusti-
[1] H. v. Helmholtz, Die Lehre von den Tonempfin-             ca 83, 684 (1997)
     dungen als physiologische Grundlage fuer die
     Theorie der Musik, Vieweg, Braunschweig 1870
[2] G. Böhme und K. Welzl-Müller, Audiometrie. Hör-
     prüfungen im Erwachsenen- und Kindesalter,Ver-
                                                          Der Autor
     lag Hans Huber, Bern 1998.                           Birger Kollmeier hat seit seiner Promo-
[3] R.-P. Derleth, T. Dau und B. Kollmeier, Hearing       tion in Physik und seinem Medizin-Stu-
     Research 159, 132 (2001).                            dium in Göttingen immer den Verdacht
[4] S. Uppenkamp, J. Neumann, und B. Kollmeier,           erregt, weder Fisch noch Fleisch zu sein.
     Hearing Research 78, 210 (1994).                     Dazu trägt die Ausrichtung seiner Ar-
[5] H. Zenner, Hören, Thieme, Stuttgart 1994.             beitsgebiete Hör-, Sprach- und Hirnfor-
[6] C.E. Schreiner und G. Langner, Nature 388, 383        schung wesentlich bei. Obwohl er sich
     (1997)                                               mit seiner Habilitation in Physik in Göt-
[7] T. Dau, B. Kollmeier und A. Kohlrausch, J. Acoust.    tingen und seiner Berufung an die Uni-
     Soc. Am. 102, 2892 (1997).                           versität Oldenburg als Professor für An-
[8] M. R. Schroeder, Computer Speech: Recognition,        gewandte Physik/Experimentalphysik eindeutig festlegte,
     Compression, Synthesis, Springer, Berlin 1999.       ist sein Motto der Brückenschlag zwischen den Fächern
[9] E. Zwicker und H. Fastl, Psychoacoustics — Facts      und die Anwendungsorientierung geblieben: Mit der Abtei-
     and Models, Springer, Berlin 1990.                   lung Medizinische Physik, dem Europäischen Graduierten-
[10] H. S. Colburn, in: Auditory Computation, Sprin-      kolleg Neurosensorik, dem An-Institut Hörzentrum Olden-
     ger, New York 1996, S. 332.                          burg GmbH und dem Kompetenzzentrum HörTech hat er
[11] J. Blauert, Spatial Hearing, MIT Press, Cambridge    interdisziplinäre Strukturen aufgebaut, die er heute in Ol-
     1997.                                                denburg leitet. Ausgezeichnet wurde er u. a. mit dem Lo-
[12] R. D. Patterson, M. Allerhand und C. Giguere,        thar-Cremer-Preis der Dt. Gesellschaft für Akustik und
     J. Acoust. Soc. Am. 98, 1890 (1995)                  dem Forschungspreis Technische Kommunikation der Alca-
[13] I. Holube und B. Kollmeier, J. Acoust. Soc. Am.      tel-SEL-Stiftung. Sein Stolz gilt – neben den eigenen vier
     100, 1703 (1996).                                    Kindern – den bisher 25 „Doktorkindern“, die u. a. bei ca.
[14] V. Hohmann und B. Kollmeier, in: Psychoacou-         70 % des Hörgeräte-Weltmarktes in der Entwicklung eine
     stics, Speech and Hearing Aids, World Scientific,    wichtige Rolle spielen.
     Singapore 1996, S. 193.

                                                                                                     Physik Journal
                                                                                                     1 (2002) Nr. 4     45
Sie können auch lesen