Raumklang mit Ambisonics in Max/MSP

Die Seite wird erstellt Hannes Raab
 
WEITER LESEN
Raumklang mit Ambisonics in Max/MSP
                                              Philippe Kocher

                         ICST Institute for Computer Music and Sound Technology

                                   ZHdK Zürcher Hochschule der Künste

Seit einigen Jahren wird in Zürich im Bereich der       dacht, ohne weitere Verarbeitung verwendet zu
räumlichen Klangprojektion geforscht und man hat        werden.
sich auf die aus Großbritannien stammende Tech-
nologie Ambisonics spezialisiert, die nicht nur der     Das B-Format ist das eigentliche Kernstück von
Wiedergabe mit dem Soundfield Microphone                Ambisonics, denn es beschreibt mit seinen vier
erstellter, periphoner Aufnahmen dient, sondern mit     Kanälen (W, X, Y, Z) die gesamte Dreidimensionali-
der es auch möglich ist, Klangquellen im virtuellen     tät des Schallfeldes an jenem Punkt, an dem die
Raum zu setzen und diesen über eine beliebige           Aufnahme gemacht wurde. Zum Verständnis des
Anzahl Lautsprecher zu reproduzieren. Die am            B-Formats stelle man sich vier Mikrophone vor, die
ICST entwickelten Externals für Max/MSP ermögli-        sich in einem einzigen Punkt befinden. Drei Mikro-
chen dem Benutzer einen einfachen und intuitiven        phone besitzen Achtercharakteristik und sind
Zugriff auf dieses Raumklangverfahren, einerseits       rechtwinklig zueinander, den drei Raumkoordinaten
durch Module für das Encodieren und Decodieren          gemäß, ausgerichtet. Sie liefern die Signale für die
in Ambisonics bis dritter Ordnung, andererseits         Kanäle X, Y und Z. Ein weiteres Mikrophon schließ-
durch eine graphische Schnittstelle zur räumlichen      lich besitzt Kugelcharakteristik und liefert das mo-
Manipulation virtueller Klangquellen in Echtzeit und    nophone Signal W. Dieses vierkanalige Format
einem Modul für die algorithmischen Steuerung von       nennt sich B-Format erster Ordnung.
Bewegungen im dreidimensionalen Raum.                   Zur Wiedergabe wird ein Decoder benötigt, der aus
                                                        dem B-Format die Signale für die einzelnen Laut-
Ambisonics                                              sprecher errechnet. Bis hierher wurde noch kein
                                                        Wort verloren über Anzahl und Aufstellung der
Die Raumklangtechnologie Ambisonics wurde in            Lautsprecher. Tatsächlich handelt es sich hier um
den 1970er Jahren vom britischen Mathematiker           eine große Stärke, die Ambisonics gegenüber an-
Michael Gerzon entwickelt. Ursprünglich handelt es      deren Raumklangtechniken hat: Man ist an keine
sich um eine besondere Mikrophontechnik, mit der        fixe Lautsprecherkonfiguration gebunden. Bleibt
eine mehrkanalige Aufnahme erstellt wird, welche        man innerhalb vernünftiger Grenzen, was Minimal-
die räumliche Information des Schallfeldes trägt        zahl und Symmetrie angeht, ist man frei in der An-
und schließlich über ein Lautsprechersystem derart      ordnung der Lautsprecher und kann sie den jewei-
wiedergegeben werden kann, dass sich der Ein-           ligen Gegebenheiten und der Form des Raumes
druck dreidimensionalen (periphonen) Hörens ein-        anpassen. Der Decoder benötigt lediglich die ge-
stellt. Das heißt, das Schallfeld wird weitgehend       nauen Koordinaten eines jeden Lautsprechers.
originalgetreu übertragen und virtuelle Schallquel-
len sind korrekt und präzise lokalisierbar. Für eine    Zu den weiteren vorteilhaften Eigenschaften von
solche Aufnahme verwendet man das so genannte           Ambisonics zählt die Tatsache, dass keine Raum-
Soundfield Microphone, bestehend aus vier Mikro-        richtung bevorzugt wird. Dies im Gegensatz zu
phonkapseln mit nierenförmiger Charakteristik, an-      Raumklangtechniken, die im Zusammenhang mit
geordnet als regelmäßiges Tetraeder. Das Aus-           dem Film entwickelt wurden und eindeutig nach
gangssignal dieses Mikrophons wird elektronisch         vorne, zur Bildfläche hin ausgerichtet sind. Eben-
aufbereitet, und man erhält das vierkanalige B-         falls ist bei Ambisonics der Bereich, in dem sich
Format, das als Standardsignal einer Aufnahme mit       das optimale räumliche Klangempfinden einstellt –
dem Soundfield Microphone gilt. Das in der Fach-        der "sweet spot" – merklich größer als bei anderen
sprache als A-Format bezeichnete direkte Aus-           Formaten. In der Tat mag es für den Heimgebrauch
gangssignal dieses Mikrophons ist nicht dazu ge-        reichen, wenn dieser bloß einer Person Platz bie-
                                                        tet, für öffentliche Konzerte sollte aber auch einer
                                                        umfangreicheren Zuhörerschaft ein überall ähnlich
gutes Hörerlebnis geboten werden. Auch außerhalb              mat aufgezeichnet sein und werden erst zum Zeit-
des Lautsprecherkreises ist es möglich, eine ge-              punkt der Wiedergabe für die spezifische Lautspre-
wisse räumliche Abbildung wahrzunehmen, ein                   cheraufstellung des Aufführungsortes decodiert.
Hineinhören von Außen sozusagen.                              Dadurch wird Ambisonics zu einer ausgesprochen
                                                              flexiblen Technologie, was dem Kompositionspro-
                                                              zess sehr entgegenkommt, arbeitet man doch wäh-
Virtuelle Räume
                                                              rend des Komponierens meist mit einem anderen
Selbstverständlich kann das B-Format auch syn-                und oft wesentlich bescheideneren Lautsprecher-
thetisch hergestellt werden. Dem Sounddesigner                system, als es der Konzertsaal bietet. Zudem bleibt
oder dem Komponisten elektroakustischer Musik                 das fertige Stück unabhängig von irgendeiner spe-
eröffnet sich damit die Möglichkeit künstliche                zifischen Lautsprecheraufstellung.
Räumlichkeiten zu kreieren. Das Verfahren, das ein
                                                              In der Praxis sieht die Produktion wie folgt aus: Der
monophones Schallsignal mit einer Richtungsan-
                                                              Ort einer virtuellen Klangquelle wird durch seine
gabe in ein B-Format überführt, also eigentlich die
                                                              Raumkoordinaten festgelegt. Um den Effekt der
Aufnahme mit einem Soundfield Microphone virtuell
                                                              Bewegung zu erzeugen, ändern sich diese Koordi-
nachbildet, nennt man Encodierung.
                                                              naten in der Zeit. Zuerst wird der monophone Ur-
Beim Arbeiten mit Ambisonics ist dadurch die Pro-             sprungsklang aufbereitet, indem gemäß seiner Ent-
duktion von der Reproduktion getrennt, mit dem B-             fernung die Lautstärke angepasst und ebenso mit
Format als zwischengeschaltetes Übertragungs-                 einem Tiefpassfilter die Luftabsorption simuliert
format (Abb. 1). Kompositionen können im B-For-               wird. Dann wird der Klang mit den Koordinaten ver-
                                                              rechnet und ins B-Format encodiert.

Abbildung 1: In Ambisonics ist die Produktion von der Reproduktion getrennt

Formeln                                                       kann unterschiedlich genau erfolgen. Die Genauig-
                                                              keit wird durch die so genannte Ordnung bestimmt.
Wenn man versucht, an einem beliebigen Punkt im               Die nullte Ordnung ist ein Monosignal, die Aufnah-
Raum die Summe der Schallwellen exakt zu be-                  me mit dem Soundfield Microphone ist in erster
rechnen, treten komplizierte mathematische Funk-              Ordnung. Aufnahmeverfahren für höhere Ordnun-
tionen auf. Vereinfachend wird deshalb bei Ambi-              gen wurden zwar entwickelt, befinden sich aber
sonics angenommen, dass nur ebene Wellen auf-                 noch in einem experimentellen Stadium.
treten und der Hörer sich genau im Mittelpunkt be-
findet. Schallwellen werden als Summe von Kugel-              Höhere Ordnungen lassen sich synthetisch be-
flächenfunktionen (Spherical Harmonics) darge-                rechnen, indem man das Signal mit den Funkti-
stellt. Dadurch reduziert sich die Komplexität auf            onswerten von Kugelflächenfunktionen höherer
eine Multiplikation der monophonen Klänge mit                 Ordnung multipliziert. Unsere Implementation ver-
Richtungsvektoren. Die Codierung der Signale                  wendet die Koeffizienten des Furse-Malham-Sets.
Ist die virtuelle Richtung eines Schallsignals S ge-
geben durch den Azimutwinkel φ und den Elevati-                Anzahl Lautsprecher >= (Ordnung + 1) · 2
onswinkel δ, werden die Kanäle des B-Formats wie
folgt berechnet:                                       Und für eine dreidimensionale Aufstellung:

                                                               Anzahl Lautsprecher >= (Ordnung + 1)2
 Ordnung Komponente
 Nullte  W = S · 0.707
                                                       Als Kompromiss zwischen Genauigkeit der räumli-
 Erste   X = S · cos φ · cos δ                         chen Auflösung und bewältigbarer Datenmenge
         Y = S · sin φ · cos δ                         und Rechenleistung wird am ICST die dritte Ord-
         Z = S · sin δ                                 nung verwendet.
 Zweite  R = S · (1.5 · sin2 δ – 0.5)
         S = S · cos φ · sin (2δ)                      Entwicklung von Software
         T = S · sin φ · sin (2δ)
                                                       Für die ersten Schritte mit Ambisonics wählte man
         U = S · cos (2φ) · cos2 δ                     in Zürich die im Feld der Computermusik sehr ver-
         V = S · sin (2φ) · cos2 δ                     breitete Klangsynthesesprache CSound. Die oben
 Dritte  K = S · sin δ · (5 · sin2 δ – 3) · 0.5        genannten mathematischen Formeln wurden im-
         L = S · cos φ · cos δ · (5 · sin2 δ – 1)      plementiert und führten zu guten Resultaten, bloß
         M = S · sin φ · cos δ · (5 · sin2 δ – 1)      die Arbeitsweise war weit entfernt von Unmittelbar-
                                                       keit und Interaktion. Um ein Werkzeug zur Hand zu
         N = S · cos (2φ) · sin δ · cos2 δ
                                                       haben, das auch ermöglicht, in Echtzeit die klangli-
         O = S · sin (2φ) · sin δ · cos2 δ             che Räumlichkeit zu kontrollieren, begannen wir
         P = S · cos (3φ) · cos3 δ                     damit, für Ambisonics die Programmierumgebung
         Q = S · sin (3φ) · cos3 δ                     Max/MSP zu verwenden.

                                                       Dass wir uns damit das Feld der Live-Elektronik
                                                       eröffneten, versteht sich von selbst. Aber auch die
Die Kanäle des B-Formats sind standardisiert mit       Arbeit des Komponisten im Studio veränderte sich
Grossbuchstaben bezeichnet. Ihre Anzahl ist nur        dadurch. Es ist eine unermessliche Hilfe für die
von der Ordnung abhängig, nicht von der Zahl der       Vorstellungskraft, wenn man unmittelbar hören
virtuellen Schallquellen oder der Lautsprecher. Die    kann, wie man seine Klänge am Bildschirm räum-
Anzahl der Kanäle wächst quadratisch mit der Ord-      lich manipuliert. Mit solchen Experimenten und
nung.                                                  Studien können wertvolle Erfahrungen gesammelt
                                                       werden und es wird der Sinn für Wirkung und Aus-
        Anzahl Kanäle = (Ordnung + 1)2                 druck räumlicher Gesten geschärft, was letztlich
                                                       dem Kompositionsprozess zugute kommt. Die
                                                       Frucht unserer Arbeit mit Max/MSP ist eine kleine,
Das B-Format bleibt aber abwärtskompatibel, d.h.       aber äußerst leistungsfähige Kollektion von so ge-
es kann auch immer in einer tieferen Ordnung de-       nannten Externals, die wir Interessierten im Internet
codiert werden.                                        frei zur Verfügung stellen (www.icst.net/downloads).
                                                       Damit lassen sich in Max/MSP Raumklanganwen-
Obschon die Theorie suggeriert, dass die Anzahl
                                                       dungen baukastenartig zusammenstellen. Unser
und die Positionen der Lautsprecher völlig frei ge-
                                                       Ziel ist es, dem Benutzer, der ja meist eher Musiker
wählt werden können, hat die Praxis gezeigt, dass
                                                       als Mathematiker ist, eine Schnittstelle zu bieten,
dennoch eine möglichst symmetrische Aufstellung
                                                       mit der sich zweckmäßig, unkompliziert und ohne
anzustreben ist. Zudem sollte je nach Ordnung ei-
                                                       großes Wissen um die theoretischen Hintergründe
ne Mindestanzahl von Lautsprechern verwendet
                                                       arbeiten lässt.
werden, da durch die engmaschigere räumliche
Auflösung höherer Ordnungen sich sonst "Löcher"
zwischen zu weit voneinander entfernten benach-        DSP-Bausteine
barten Lautsprechern ergeben würden. Für eine
Lautsprecheraufstellung in der Ebene (2D) gilt:        Das Herzstück bilden die beiden Externals "ambi-
                                                       encode~" und "ambidecode~", die für das Encodie-
ren und das Decodieren zuständig sind, also die               Decodierung auf zwei Rechnern laufen, sollten
ganze digitale Signalverarbeitung besorgen. Mit               praktische Überlegungen dies erfordern.
ihnen lässt sich eine beliebige Anzahl Klangquellen
in das B-Format überführen – in erster, zweiter o-            Um die Positionen der virtuellen Klangquellen zu
der dritter Ordnung – und dann für eine beliebige             steuern werden dem Encoder pro Kanal die jeweili-
Anzahl Lautsprecher decodieren. Die Trennung in               gen Koordinaten (Azimut, Elevation und Distanz)
zwei Module ermöglicht den Zugriff auf das B-For-             eingegeben. Eine weitere Variable legt den dB-Ab-
mat, das somit bearbeitet oder aufgezeichnet wer-             fall pro Distanzeinheit fest. Der Decoder erwartet
den kann. Ebenfalls kann so die Encodierung und               die Eingabe einer Liste mit den Koordinaten der
                                                              Lautsprecher, um die entsprechenden diskreten
                                                              Signale zu errechnen.

Abbildung 2: Eine einfache Anwendung, die drei Schallquellen auf acht Lautsprecher codiert in dritter Ordnung

Das Tiefpassfilter zur Simulation der distanzabhän-           einer kreisrunden Aufstellung abweichen, von Hand
gigen Frequenzabsorption sowie ein Modul zur Er-              nach dem Decoder in den Signalfluss eingefügt
zeugung des Dopplereffekts, der psychoakustisch               werden.
für die Wahrnehmung von Bewegung eine wichtige
Rolle spielt, sind nicht fest in den Encoder einge-           Graphische Benutzerschnittstelle
baut, sondern müssen vom Benutzer bei Bedarf
selber in den Signalfluss integriert werden. Die Er-          Optische Kontrolle über die Koordinaten der virtuel-
fahrung zeigt, dass Komponisten hier unterschied-             len Klangquellen im Raum bietet ein "ambimonitor"
lich vorgehen und individuelle Vorlieben haben, ob            genanntes GUI-Objekt, das jede Quelle mit einem
und wie solche distanzabhängigen Bearbeitungen                Punkt darstellt, ähnlich einem Radarschirm. Dieses
vorgenommen werden sollen. Ebenso müssen Ver-                 Objekt erzeugt automatisch eine für die DSP-Bau-
zögerungen, um Lautsprecherpositionen, die von                steine verständlich formatierte Liste mit Koordina-
ten und kann somit direkt an jene angeschlossen       Dem Benutzer, der die Bewegungen seiner Klang-
werden.                                               quellen algorithmisch steuern möchte, wird der
                                                      Baustein "ambicontrol" gute Dienste leisten. Hier
                                                      lassen sich automatische Bewegungen auf einzel-
                                                      ne oder mehrerer Punkte anwenden, von der
                                                      schlichten Kreisbahn über die Zufallsbewegung
                                                      innerhalb eines begrenzten Volumens bis zur be-
                                                      nutzerdefinierten Trajektorie. Dadurch, dass man
                                                      diese Bewegungen in Geschwindigkeit, Ausdeh-
                                                      nung und Lage interaktiv steuern kann, verlagert
                                                      sich die Kontrolle des Benutzers auf eine höhere
                                                      Ebene. Wenn man diese Kontrollobjekte miteinan-
                                                      der verbindet oder kaskadiert, lassen sich Bewe-
                                                      gungen beliebiger Komplexität erzeugen. Ein Bei-
                                                      spiel hierfür findet sich in Abbildung 4.

                                                      Benutzerdefinierte Trajektorien können entweder
                                                      als Liste von Koordinaten (Zeit, Position) eingege-
                                                      ben oder aber in Echtzeit als Bewegung aufge-
                                                      zeichnet werden. Diese Daten können ebenfalls in
                                                      einer XML-formatierten Textdatei gespeichert wer-
                                                      den.

                                                      Anwendungen
                                                      In einem Max/MSP-Patch finden sich üblicherweise
                                                      Klangquellen, wie Mikrophoneingänge, syntheti-
                                                      sche Klangerzeuger oder auf einem Buffer, bezie-
                                                      hungsweise einer Datei basierende Wiedergabe-
                                                      module, gefolgt von irgendeiner Form von Klang-
                                                      bearbeitung, deren Audiosignale dem Encoder zu-
                                                      geführt werden. Die Koordinaten für den Encoder
Abbildung 3: Der Ambimonitor                          können vorprogrammiert sein oder werden vom
                                                      Benutzer interaktiv gesteuert, gegebenenfalls mit-
                                                      tels eines angeschlossenen Controllers. Die vom
                                                      Decoder benötigten Koordinaten erhält man durch
Die Punkte können mit der Maus am Bildschirm
                                                      das Vermessen der Lautsprecherpositionen am
bewegt werden und mit Hilfe der Computertastatur
                                                      jeweiligen Aufführungsort.
können sie an- und abgewählt, sowie neu gesetzt
oder gelöscht werden. Falls gewünscht, wird zu        Weitere Elemente, wie distanzabhängige Filterung,
jedem Punkt der numerische Index oder ein frei        Dopplereffekt oder Hall, werden wie bereits er-
wählbarer Name eingeblendet, sowie die Koordina-      wähnt an den entsprechenden Stellen eingefügt. Im
ten, wahlweise in kartesischem oder polarem For-      Falle von Hall, können die frühen Reflexionen wie-
mat. Die Anordnung der Punkte auf dem Bildschirm      derum der Spatialisation zugeführt werden, um ihr
kann zu jeder Zeit gespeichert und später wieder      räumliches Eintreffen zu simulieren, während der
aufgerufen werden und damit lässt sich eine Biblio-   Nachhall der monophonen Komponente des B-
thek von Raumszenen für eine Komposition erstel-      Formats (Kanal W) beigemischt wird.
len. Solcherart gespeicherte Anordnungen können
schließlich in einer XML-formatierten Textdatei ge-
speichert werden.
Abbildung 4: Vier Punkte in Zu-
                                                                                    fallsbewegung, deren Begrenzung
                                                                                    sich ihrerseits auf einer Kreisbahn
                                                                                    um den Mittelpunkt befindet

Abbildung 5: Eine benutzerdefinierte Trajektorie und die dazugehörige XML-formatierte Textdatei

Die Max/MSP Externals des ICST wurden bereits                 cherten Tonbandstücken, teils für live-elektronische
vielfach eingesetzt in Konzerten elektronischer Mu-           Musik, sowie für anspruchsvollere Projekte mit
sik, teils zur Wiedergabe von im B-Format gespei-             Kombinationen von vorgefertigtem Material, Inter-
aktionen in Echtzeit und Instrumentalisten. Für In-   Ausblick
stallationen mit räumlicher Beschallung wurden die
Externals ebenfalls schon mehrfach verwendet,         In einem zukünftigen Schritt soll ein weiteres DSP-
wobei auch gerade hier sich die Flexibilität von      External programmiert werden, das die gesamte
Ambisonics bewährt hat, unabhängig zu sein von        Encodierung und Decodierung in einem einzigen
ortspezifischen Bedingungen, ohne die Integrität      Modul vornimmt, für die Fälle, wo dies zweckmäßi-
des Raumklanges zu kompromittieren.                   ger ist als zwei einzelne Module. Ebenfalls werden
                                                      weitere Externals zur algorithmischen Bewegungs-
Die Effizienz dieser Technik, was die Rechenleis-     steuerung dazukommen.
tung angeht, ermöglicht es, die gesamte Spatialisa-
tion auf einem einzigen leistungsfähigen Laptop-      Eine Sammlung von "Pluggo" Plug-ins, um die Stu-
Rechner auszuführen. Eine stattliche Anzahl virtu-    dioarbeit mit Sequenzerprogrammen zu unterstüt-
eller Schallquellen kann in Echtzeit encodiert und    zen, ist in Arbeit. Ferner soll die Decodierung des
decodiert werden, wobei immer noch genügend           B-Formats in ein binaurales Signal mittels HRTF
Prozessorleistung für andere Arten von Signalver-     entwickelt werden, um auch die Arbeit mit dem
arbeitung übrig bleibt.                               Kopfhörer zu ermöglichen. Schließlich ist geplant,
                                                      die Externals nach PD zu portieren und diese damit
                                                      einer noch größeren Öffentlichkeit verfügbar zu
                                                      machen.

Philippe Kocher, Komponist und Computermusiker, arbeitet am ICST Zürich als Software-Entwickler.

www.icst.net

philippe.kocher@zhdk.ch
Sie können auch lesen