Multimediale Werkzeuge, Audio: Formate, Tools -Sound/Audio Objekte Formate, Beispiele
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Multimediale Werkzeuge, Audio: Formate, Tools -Sound/Audio Objekte Formate, Beispiele: - Mp3 (Kurz für MPEG1/2 Layer 3) - PCM (z.B. Wave Datei), übliche Formate: CD: 44100 HZ Abtastrate, 16 Bits/Abtastwert. -> Maximale Frequenz des Audio-Signals < 22050 Hz praktisch: < ca. 20-21 kHz wegen begrenzter Flankensteilheit der Rekonstruktions-Tiefpass Filter. -> Signal-to-Noise Ratio = Signal/Noise (hier : Max. Signal / Noise). Schätzung: SNR = 6 dB/bit, also SNR = 16 * 6 dB= 96 dB
d.h.: ist unabhäng von der Wahl von Leistung oder Spannung für Signal oder Noise. Beispiel: Umrechnung der 96 dB in Spannungsverhältnis:
weitere gebräuchliche Formate: Abtastfrequenzen: 32000 Hz, 22050 Hz, ca. 11000 Hz (Apple), 8000 Hz (Sprache, < 3.5 khz Audio), 48 kHz, 96kHz. 192 kHz (High quality Audio) Anzahl der Bits/Abtastwert: 8bit, 20 bit, 24 bit, 32 bit | Sprache Für Sprache gebräuchlich: mu-Law: Ungleichförmiger Quantisierer, um das SNR bei kleinen Signalen zu verbessern: Feine Schritte bei kleiner Amplituden, gröbere Schritte bei großen Amplituden. -> SNR sinkt nicht mehr wesentlich bei kleinen Amplituden. Z.B. mu-Law bei 8 KHz und 8 bit / Abtastwert | wichtig wegen geringem SNR -> Verwendung z.B. in ISDN Telefonen
D.h. Bitrate (Bits/Sekunde): Bitrate CD Signal: Bitrate Kompressionsrate von MP3: Bitrate für einen Monokanal: Z.B. 64 Kb/s Also: Kompressionsrate = Dh. wir bekommen auch erhebliche Kompression bei MP3 (nicht nur ein Format!)
Mehr Audio Formate, Tools wie Adobe Audition PCM: Signal, z.B. vom Mikrofon quantisierte Abtastwerte, z.B. CD: 44 100 Abtastwerte (AW) pro Sekunde 16 bit -> 2 byte -> 2 Möglichkeiten, diese 16 bit/ 2 byte pro AW darzustellen!
Es gibt verschiedene Rechnerarchitekturen, die intern 16 bit mit zuerst dem höherwertigen byte oder dem niederwertigen byte darstellen. Entsprechend gibt es 2 Darstellungen für PCM Audio-Formate: - sog." Little Endian": Das 2. byte ist das niederwertige - sog." Big Endian": Das 2. byte ist das höherwertige. Diese Information muß der Nutzer kennnen wenn das Audio-Signal im sog. "raw" Format vorliegt, d.h. wenn das File nur die AW des Signals enthält. -> Für diese Information sind die sog. "Header" in Audio-Formaten nützlich, wie z.B. in: .au, .snd (SUN), .aif (Apple), wav...
Information in Header, u.a.: Little-Endian oder Big-Endian, Abtastrate, Bits pro AW, Lineare ode mu-Law Kennlinie, Verwendung von Kompression, wie z.B. ADPCM... Weiter: einfache Kommentare zum Inhalt. ADPCM: Adaptive Differential Pulse Code Modulation. -Prinzip: Benachbarte AW sind meist sehr ähnlich, d.h. wir können Bits bei der Darstellung sparen, wenn wir nur die Differenz zum vorherigen Abtastwert übertragen oder speichern (daher "Differential")
-Nächster Schritt: Wenn die AW z.B. auf einer Kurve Liegen, die durch eine Grade angenähert werden kann, können wir den nächsten Abtastwert ungefähr vorausberechnen oder schätzen ( Extrapolation der Graden), und die Differenz zum vorausberechneten Wert übertragen. Der Empfänger führt die gleiche Vorausberechnung durch, und addiert diese Differenz darauf. Das Verfahren kann erweitert werden auf Kurven, auch höherer Ordnung. Dafür werden nur mehr AW aus der Vergangenheit benötigt, um diese Kurven extrapolieren zu können. Dieses Verfahren der Extrapolation wird "Prädiktion" genannt.
ADPCM Prinzipstruktur Encoder Decoder Audio Prädiktionsfehler Prädizierter Wert Verzögerungsglied für 1 AW, d.h. Prädiktor wird an das "sieht" nur vergangene AW! Signal adaptiert Üblicher Kompressionsfaktor von ADPCM: Ca. 2
Stereo, Multikanal Mikrofone Lautsprecher Woher bestimmt das menschliche Gehirn die Richtung eines Schallereignisses? Antwort: -Laufzeitunterschiede/Phasendifferenzen zwischen den Ohren, bei Frequenzen unterhalb ca. 1 kHz. -Pegelunterschiede zwischen den Ohren (Paning), intensity stereo.
Intensity Stereo ist weit verbreitet, weil es für die Produktion einfach ist (Lautstärkeunterschiede durch Regler), und weil es für die Übertragung vorteilhaft ist: keine Phasenunterschiede, d.h. Differenzen werden gering. - Simples verfahren, z.B. in MP3 verwendet: statt Links/Rechts wird Summe (Mitte) und Differenz (Seite) übertragen, wenn es vorteilhaft ist, ansonsten wird Links/Rechts getrennt übertragen. - Verfeinerung: Anwendung dieses Verfahrens auf sog. Teilbänder, also versch. Frequenzbereiche. (Z.B. in MPEG2/4 AAC)
Neuere Kompressionsformate -MPEG2/4 AAC (Advanced Audio Coding) gedacht als Nachfolger von MP3. Kompressionsrate ca. 1.5..2 größer als MP3 Verwendung z.B. in Apple iTunes, Handys... -MPEG4: Lossless Audio Coding, Verlustlose Komprimierung, d.h. die Original AW werden nach der Decodierung wieder hergestellt. Dies ist anders als bei der verlustbehafteten Codierung (MP3, AAC), wo das rekonstruierte Signal gleich klingt, aber andere AW hat. (unperfektheitenen des Ohres, Psycho akustik)
Kompressionsfaktoren von Lossless Compression sind abhängig vom Signal, meist um Faktor 2. -MPEG 4 Scalable Lossles: Deckt Bereich von Lossless bis Perceptual Coding (AAC) ab, also Kompressionsraten von Ca. 2 bis über 10! Anwendungen: Archivierung, Studios mit Bearbeitung des Signals und mehreren Codier/Decodier Schritten. (Tandem Coding Problem des Perceptual Coding, mit jedem Codier/Decodier-Schritt verschlechtert sich die Qualität) Durch höhere Bitrate bekommen wir "Reserve".
Bearbeitung (z.B. Adobe Audition, Audacity) Filter, Equalizer, ändern der Abspiel-Geschwindigkeit ohne Tonhöhenänderung (Verwendung sog. Filterbänke) N Frequenzbereiche x(n) y(n) Eingang Ausgang Inputsantworten der Filter Verringerung der Abtastrate um Faktor r, also schnelleres Abspielen
->Tonhöhe bleibt durch die Teilband-Zerlegung konstant. -Weitere Möglichkeit der Verarbeitung: statt Downsampler wird ein Verstärkungs- oder Dämpfungs-Faktor eingebaut. -> Wir bekommen einfach wählbare Filter oder Equalizer
Sie können auch lesen