Communication and Networked Systems - ComSys

 
WEITER LESEN
Communication and Networked Systems - ComSys
FACULT Y OF
 COMPUT ER SCIENCE

 Communication and Networked Systems

 Masterarbeit

Entwicklung eines Wavelet-Codecs zur effizienten
 Übertragung haptischer Daten

 Sophie Herbrechtsmeyer

 Betreuer: Prof. Dr. rer. nat. Mesut Güneş
 Betreuender Assistent: M.Sc. Frank Engelhardt

Institut für Intelligente Kooperierende System, Otto-von-Guericke-Universität Magdeburg

 02.02.2021
Communication and Networked Systems - ComSys
Communication and Networked Systems - ComSys
Inhaltsverzeichnis

1 Einleitung 7

2 Grundlagen 9
 2.1 Taktiles Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
 2.1.1 Haptische Wahrnehmung, Weber-Gesetz . . . . . . . . . . . . . . . . 9
 2.1.2 Teleoperationssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . 11
 2.2 Codecs und Datenkompression . . . . . . . . . . . . . . . . . . . . . . . . . 13
 2.2.1 Wavelet-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . 13
 2.2.2 Audio-Codecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
 2.2.3 Bildkompression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
 2.2.4 Haptische Codecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
 2.3 Evaluation haptischer Codecs . . . . . . . . . . . . . . . . . . . . . . . . . . 21
 2.3.1 Kompressionsrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
 2.3.2 MSE - Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . 22
 2.3.3 RMSE - Root Mean Squared Error . . . . . . . . . . . . . . . . . . . 22
 2.3.4 PMSE - Perceptual Mean Squared Error . . . . . . . . . . . . . . . . 22
 2.4 Verwandte Arbeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Konzept 25
 3.1 Wavelet-Codec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
 3.2 OPUS-Codec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Fallstudie Quadrocopter 31
 4.1 Versuchsaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
 4.1.1 Nintendo Wii Fernbedienung und libwiimote . . . . . . . . . . . . . 32
 4.1.2 Parrot Bebop 2 und ARDroneSDK3 . . . . . . . . . . . . . . . . . . 33
 4.2 Datenakquisition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
 4.2.1 Parameter für Weber-Codec . . . . . . . . . . . . . . . . . . . . . . . 36
 4.2.2 Parameter für Wavelet-Codec . . . . . . . . . . . . . . . . . . . . . . 36
 4.2.3 Parameter für OPUS-Codec . . . . . . . . . . . . . . . . . . . . . . . 37
 4.3 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5 Evaluation 43
 5.1 Kompressionsfaktor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
 5.2 Perceptual Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . . . 44
 5.3 Root Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
iv

 5.4 Latenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
 5.5 Komplexität des Kontrollschemas . . . . . . . . . . . . . . . . . . . . . . . . 48

6 Fazit 51
 6.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
 6.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Literatur 53

Anhang 55
Zusammenfassung

Zusammenfassung
Um eine immersive und sichere Interaktion mit Teleoperationssystemen zu ermöglichen,
wird eine große Anzahl von Sensordaten benötigt, die drahtlos zwischen den Teleoperations-
komponenten übertragen werden. Es werden geeignete Codecs benötigt, um die begrenzte
Bandbreite der Übertragung effizient zu nutzen. Die vorliegende Masterarbeit erarbeitet
ein Konzept für einen Codec auf Basis von Wavelets, der kinästhetische Daten codiert.
Zur Überprüfung der Effizienz wird eine Fallstudie mit einem Quadrocopter durchgeführt.
Der vorgestellte Wavelet-Codec sowie zwei weitere kinästhetische Codecs werden auf die
Daten angewandt und die Ergebnisse miteinander verglichen. Die Evaluation spricht für
eine Eignung des vorgestellten Wavelet-Codecs für die effiziente Codierung kinästhetischer
Daten.

Abstract
To secure an immersive and safe interaction for a user with a teleoperating systems, a
high amount of sensory data is needed, which is transmitted wireless between the compon-
ents of a teleoperating system. Therefore we need suitable codecs to use the bandwidth
of transmission in an efficient way. This master thesis develops a codec concept based on
Wavelet-Transformation that is applied on kinesthetic data. To verify the efficiency of the
codec a case study of a quadrocopter teleoperating system is realized. The Wavelet codec
and two other kinesthetic codecs are applied on the kinesthetic data to compare their re-
sults. The evaluation of the Wavelet codec shows promissing results as an efficient codec
for kinesthetic data.
Abkürzungsverzeichnis

MSE Mean Squared Error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .22

RMSE Root Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

PMSE Perceptual Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

ITU International Telecommunication Union . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

HMI Human-Machine Interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

DFT Diskrete Fourier-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

DCT Diskrete Cosinus-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

DWT Diskrete Wavelet-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

FWT Fast Wavelet-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

IFWT Inverse Fast Wavelet-Transformation

IFWT Inversen Fast Wavelet-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

JND Just-Noticeable-Difference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

TPF Tiefpassfilter. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

HPF Hochpassfilter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

SDK Software Developement Kit
4

SDK Software Developement Kits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Symbolverzeichnis

Symbol Beschreibung
 MSE Mean Squared Error
 PMSE Perceptual Mean Squared Error
 RMSE Root Mean Square Error
 k Kompressionsfaktor
 Skalierungskonstante des Perceptual Mean Square Errors
 weber Weber-Quotient, Weber-Konstante
 Datenmenge, Anzahl der Datenpunkte einer Messung
 kompr komprimierte Datenmenge
 unkompr unkomprimierte Datenmenge
 k Kompressionsrate
 gemessener Sinneseindruck in der Domain der Wahrnehmung
 ̂ geschätzter Sinneseindruck in der Domain der Wahrnehmung
 Zeitspanne oder Zeitpunkt
 gemessener Wert eines Datenpunktes oder Stimulus
 ̂ geschätzter Wert eines Datenpunktes

Wavelets
 Approximations-Wavelet-Koeffizienten einer j-ten Iteration
 Wavelet-Koeffizienten
 Detail-Wavelet-Koeffizienten einer j-ten Iteration
 Extrapolationsmethode der FWT
 Anzahl der Iterationen (Stufen) einer Wavelet-Filterbank
Ψ Mother-Wavelet
 Skalierungsfaktor eines Wavelets
 Verschiebung eines Wavelets
 Fensterbreite
KAPITEL 1

 Einleitung

Die Entwicklung moderner Mobilfunktechnologie in den letzten Jahren, insbesondere die
Erweiterung der Bandbreite und Senkung der Latenz, schaffen im Bereich der Teleoperation
neue Möglichkeiten, die bestehenden Interaktionskonzepte zu verbessern und neue Konzepte
hinzuzufügen.
Teleoperationssysteme haben vielfältige Anwendungsmöglichkeiten, in denen eine möglichst
immersive und sichere Interaktion mit einem räumlich entfernten Objekt im Vordergrund
steht. Ein Anwendungsfall ist die Telechirurgie. Hierbei wird der chirurgische Eingriff nicht
direkt am Patienten ausgeführt, sondern der Eingriff über ein Teleoperationssystem unter-
stützt, das die Bewegungen des Chirurgen auf kleinere Bewegungen des Systems überträgt.
Dadurch können feiner aufgelöste Bewegungen ausgeführt werden, zusätzlich werden unge-
wollte Bewegungen wie leichtes Händezittern gedämpft. In diesem Anwendungsfall ist das
haptische Feedback des Gewebes von großer Bedeutung, da es dem Chirurgen Aufschluss
über die Gewebeeigenschaften liefert.
Um die Interaktionsmöglichkeiten weiter zu verbessern, werden immer mehr Sensoren eta-
bliert, die nicht nur die auditive und visuelle Wahrnehmung der Interaktion unterstützen,
sondern auch die taktile Wahrnehmung verbessern. Mit wachsender Anzahl von Sensoren
wird zur Übertragung aber auch mehr Bandbreite benötigt, die eine begrenzte Ressource
ist. Das Taktile Internet befasst sich mit der Problemstellung, eine Interaktion zu ermög-
lichen, welche den Anforderungen der menschlichen Sinne an die Interaktion gerecht wird.
Dazu ist es nötig, die wachsende Menge der Daten effizient zu übertragen. Zu diesem Zweck
werden entsprechende Codecs genutzt und weiterentwickelt. Für die Codierung von Bild-
und Audiodaten sind bereits Codecs etabliert, doch für die haptische Datencodierung wer-
den ebenfalls geeignete Codecs benötigt. Es stellt sich die Frage, ob Codecs aus der Bild-
und Videocodierung auch für haptische Daten geeignet sind.
8

Aufbau dieser Masterarbeit
Im nächsten Kapitel werden die Grundlagen zum Themengebiet beschrieben sowie ver-
wandte Arbeiten vorgestellt. In Kapitel 3 wird das Konzept dieser Arbeit vorgestellt, das
einen Codec für haptische Daten beschreibt und eine Hypothese zur Eignung des Codecs
für kinästhetische Daten abgeleitet. In Kapitel 4 wird die Durchführung einer Fallstudie am
Beispiel eines Quadrocopters beschrieben und die Ergebnisse vorgestellt, anhand derer die
Hypothese überprüft werden soll. In Kapitel 5 wird die Evaluation der Ergebnisse durchge-
führt und eine Einschätzung zur Hypothese gegeben. Kapitel 6 gibt eine Zusammenfassung
dieser Arbeit und einen Ausblick, um die Ergebnisse der Arbeit noch zu verbessern.
KAPITEL 2

 Grundlagen

In diesem Kapitel werden grundlegende Informationen gegeben, die zur Bearbeitung des
Themas der vorliegenden Masterarbeit, der “Entwicklung eines Wavelet-Codecs zur effi-
zienten Übertragung haptischer Daten“, benötigt werden. Zunächst werden Begriffe des
Taktilen Internets definiert und miteinander in Bezug gesetzt. Anschließend werden ausge-
wählte, standardisierte Codecs und ihre Funktionsweise vorgestellt. Zuletzt folgt ein kurzer
Einblick in die Qualitätsmetriken haptischer Codecs, die für die Auswertung der Ergebnisse
der vorliegenden Masterarbeit relevant sind.

2.1 Taktiles Internet
Der Begriff des Taktilen Internets steht für ein leistungsstarkes, verlässliches Netzwerk, das
zukünftig eine neue Art der Interaktion zwischen Mensch und Maschine (engl.: Human-
Machine Interaction (HMI)) ermöglichen soll. Neben extrem hohen Datenraten und Teil-
nehmerzahlen, soll eine Interaktion in Echtzeit möglich sein. Der Begriff Echtzeit wird in
diesem Fall über die Reaktionszeit der Wahrnehmung des Menschen definiert, welcher bei
der Interaktion mit dem Systeme keine Verzögerung bemerken soll. Neben auditiver und
visueller Wahrnehmung, die Latenzen von 100 ms bis 10 ms tolerieren, werden für die taktile
Wahrnehmung Latenzen von 1 ms durch die International Telecommunication Union (ITU)
gefordert [1].
Bei der Interaktion von Mensch und Maschine werden kontinuierlich neue Daten erfasst,
die zeitnah verarbeitet werden müssen.
Für Interaktionen von Mensch und Maschine gibt es verschiedenste Ein- und Ausgabegeräte.
Sollen beispielsweise komplexe Bewegungen übertragen werden, ist ein Teleoperationssys-
tem nötig, das die taktilen Daten erfassen und ausführen kann.

2.1.1 Haptische Wahrnehmung, Weber-Gesetz

Die haptische Wahrnehmung ist ein Oberbegriff und bezieht sich auf die sensorische und
motorische Wahrnehmung des menschlichen Tastsinnes. Derzeit gibt es unterschiedliche
Ansätze, eine Untergliederung des Begriffs vorzunehmen. Nach der Definition von Kern [2]
10

wird die haptische Wahrnehmung in nozizeptive (schmerzempfindliche), thermosensitive,
kinästhetische und taktile Wahrnehmung untergliedert.
Die taktile Wahrnehmung bezeichnet die mechanische Interaktion mit der Haut bei Berüh-
rung von Oberflächen und externer Krafteinwirkung, wobei insbesondere die Krafteinwir-
kung auf die Haut als Messgröße dient [2].
Dagegen umfasst die kinästhetische Wahrnehmung die gefühlte Position und Bewegung der
eigenen Gliedmaßen zueinander mithilfe der Muskeln, Gelenken und Sehnen [3]. In verschie-
denen Quellen wird darauf hingewiesen, dass sich taktile und kinästhetische Wahrnehmung
nicht vollständig voneinander trennen lassen [4, 2]. Kinästhetische Signale umfassen unter
anderem Position, Geschwindigkeit, Kraft, Winkel, Winkelgeschwindigkeit und Drehmoment
einzelner Gliedmaßen [4, 2].
Bei der haptischen Wahrnehmung sind die Rezeptoren über den gesamten Körper verteilt
und unterscheiden sich in ihrem Auflösungsvermögen sowie der Reaktionszeit. Eine bekann-
te Grafik, die diesen Zusammenhang darstellt, stammt vom Neurochirurgen Wilder Penfield
(vgl. Abb. 2.1). Die Abbildung zeigt schematisch die Position und Größe der Hirnareale, die
der Verarbeitung der motorischen Reize zugeordnet werden. Dabei fällt auf, dass die Größe
des jeweiligen Areals nicht in Relation zur realen Größe der Körperregion steht, sondern
entsprechend ihrer Empfindlichkeit verzerrt dargestellt wird. Somit ist zu erkennen, dass
insbesondere motorische als auch sensorische Rezeptoren der Hände einen großen Bereich
einnehmen. Aufgrund des unterschiedlichen Auflösungsvermögens ergeben sich daher unter-
schiedliche Schwellenwerte für die Wahrnehmung von Reizen einzelner Körperregionen. Bei
Schwellenwerten wird zudem unterschieden, ob es sich um die untere absolute Wahrneh-
mungsschwelle eines Reizes handelt, oder ob der Schwellenwert die kleinste wahrnehmbare
Differenz (engl. Just-Noticeable-Difference (JND)) kennzeichnet. In Kern [2] wird eine Viel-
zahl solcher Schwellenwerte in Tabellen zusammengetragen und dient als Anhaltspunkt zur
Verwendung in haptischen Systemen und Geräten. Beispielsweise beträgt der Schwellenwert
für die kinästhetische Positionsauflösung des Fingergelenks 2, 5∘ , für das Handgelenk 2, 0∘
(vgl. [2, S. 57]).
Eng verknüpft mit der JND ist das Weber-Gesetz [4]. Es beschreibt den Zusammenhang
zweier Reize bzw. Stimuli wie folgt:

 − −1
 ∣ ∣≥ weber (2.1)
 −1

Dabei ist die Intensität des aktuellen Stimulus, −1 die des zuletzt übermittelten Sti-
mulus und weber der Weber-Quotient bzw. die Weber-Konstante. Der Weber-Quotient gibt
an, bei welcher relativen Änderung die menschliche Wahrnehmung einen Unterschied in der
Signalstärke wahrnimmt. Es handelt sich um eine Konstante, die spezifisch und verschieden
für jedes Organ der Wahrnehmung ist. Das Weber-Gesetz gilt daher nicht nur für den Tast-
sinn, sondern beispielsweise auch für die Wahrnehmung von Helligkeitsunterschieden oder
Lautstärkedifferenzen [4]. Hierbei ist anzumerken, dass sich an der Schwelle zur absoluten
Wahrnehmbarkeit eines Reizes der Weber-Quotient deutlich erhöht und die Angabe der
Konstanten meist nur für einen mittleren Intensitätsbereich der Wahrnehmung gilt [2, S.
48].
11

Abbildung 2.1: Sensorischer und motorischer Homunculus nach Wilder Penfield zur Veranschau-
 lichung der Repräsentation sensorischer bzw. motorischer Areale im Gehirn.
 Bildquelle: https://www.researchgate.net/figure/Original-illustration-
 of-the-sensory-homunculus-by-Wilder-Penfield_fig2_253614317 [letzter
 Zugriff: 27.12.2020]

2.1.2 Teleoperationssysteme

Die Entwicklung des Taktile Internets wird von Teleoperations- bzw. Telemanipulationssys-
temen motiviert. Diese Systeme dienen der Interaktion zwischen dem Menschen und einem
von ihm räumlich getrennten, realen Objekt [2]. Das Teleoperationssystem ist eine Einheit
bestehend aus einem Master- und einem Slave-System. Der Nutzer interagiert mithilfe des
Master-Systems mit einem virtuellen Abbild des Objektes. Die Interaktion wird auf ein
Slave-System übertragen, das wiederum mit dem realen Objekt interagiert.
Ein Beispiel für Teleoperationssysteme stammt aus der Telechirurgie, bei der ein Chirurg
an einem Modell des Patienten operiert [5]. Seine Bewegungen werden mithilfe komplexer
haptischer Ein- und Ausgabegeräte in Form von haptischen Daten aufgezeichnet und an ein
räumlich entferntes Ausgabegerät gesendet. Dort werden die Bewegungen am realen Patien-
ten ausführt und eine Rückkopplung über die Interaktion in Form von Kräften und Wider-
ständen geboten. Dieser Umweg über das Teleoperationssystem stellt die Fähigkeiten des
Chirurgen auch an weit entfernten Orten zur Verfügung, deren Erreichen sonst zeitkritisch
wäre. Mithilfe des Taktilen Internets sollen solche bislang selten genutzten Möglichkeiten
bald zum Alltag gehören.
Andere Beispiele finden sich im Katastrophenschutz, der Industrie sowie der Luft- und
Raumfahrt wieder. Beispielsweise können Bergungsroboter in gefährliche oder schwer zu-
gängliche Gebiete geschickt und dort ferngesteuert werden, ohne den Operator selbst einer
Gefahr auszusetzen [1].
12

Teleoperationssysteme bieten zudem die Möglichkeit der Interaktion mit Simulationen, d.
h. mit virtuellen Objekten, wodurch sie schon heute zu Trainingszwecken verwendet werden
können. Beispiele dafür sind Trainingsszenarien für die Piloten- oder Chirurgenausbildung.

Quadrocopter

Der Multicopter kann in der ferngesteuerten, unbemannten Ausführung als Teleoperations-
system bezeichnet werden. Es handelt sich um ein Luftfahrzeug, das der Funktionsweise
des Helikopters nachempfunden ist. Multicopter werden beispielsweise eingesetzt, um Bild-
oder Videoaufnahmen aus der Höhe aufzuzeichnen [6]. Andere dienen dem Transport von
Waren in schwer zugängliche Gebiete, wie beispielsweise erste Testflüge zum Transport von
Medikamenten im Jahr 2014 durch die DHL-Drohne-2.0 auf die Insel Juist zeigen [7, 8].
Die Rotoren des Multicopters liegen auf einer horizontalen Ebene und wirken in senkrechter
Weise nach unten, um den Auftrieb zu erzeugen. Je nach verwendeter Anzahl von Roto-
ren werden sie auch als Quadrocopter (vier Rotoren), Hexacopter (sechs Rotoren) usw.
bezeichnet.
In der Luftfahrt wird die Ausrichtung des Quadrocopters im Raum mithilfe der drei Winkel
roll (rollen), pitch (nicken) und yaw (gieren) beschrieben. Die zugehörigen Achsen stehen
orthogonal zueinander, die x-Achse wird als Längsachse, die y-Achse als Querachse und
die z-Achse als Vertikalachse des Luftfahrzeugs bezeichnet, deren Ursprung im Massezen-
trum des Quadrocopters liegt (vgl. Abb. 2.2). Die Rotoren eines Quadrocopters können
bezüglich der Blickrichtung in ×- oder +-Formation angeordnet sein. Beispielsweise befin-
den sich die Rotoren des Quadrocopters in Abbildung 2.2 in ×-Formation. Dabei drehen
die beiden gegenüberliegenden Rotoren in die gleich Richtung (z. B. im Uhrzeigersinn),
während die anderen beiden Rotoren in entgegengesetzte Richtung drehen. Dadurch wird
der Drehmoment ausgeglichen und das Fahrzeug verharrt in einer stabilen Lage. Um die
Höhe anzupassen, wird die Drehzahl aller vier Propeller gleichzeitig und in gleicher Weise
erhöht oder verringert, bis die gewünschte Höhe erreicht ist. Bei einer ×-Formation bewegt
sich die Drohne vorwärts, wenn die Drehzahl der beiden vorderen Propeller verringert, die
der hinteren erhöht wird, wodurch sich das Fahrzeug entlang der y-Achse nach vorn neigt
(pitch-Winkel). In umgekehrter Weise ist das Rückwärtsfliegen möglich. Um seitwärts nach
rechts zu fliegen, auch rollen genannt, wird die Drehzahl der beiden rechten Propeller verrin-
gert und die der linken Propeller erhöht, um eine Neigung entlang der x-Achse zu erzeugen.
Zuletzt ist eine Drehung um die Vertikalachse möglich, indem zwei gegenüberliegende Ro-
toren verlangsamt werden, wodurch sich die Drehmomente nicht mehr aufheben und eine
leichte Drehung erzeugen.
Es sind auch komplexere Flugmanöver wie Überschläge möglich, deren komplexer Ablauf
bereits einprogrammiert wurde und durch einen einzigen Tastendruck als Manöver ausge-
führt wird.
13

 pitch

 y

 yaw
 roll

 x z

 Abbildung 2.2: Quadrocopter mit eingezeichneten Achsen und Lagewinkeln.

2.2 Codecs und Datenkompression
Ein Ziel bei der Datenübertragung in Netzwerken ist es, die zur Kommunikation nötige
Datenmenge so gering wie möglich zu halten, während die Qualität entsprechend der An-
forderungen der Software gesichert sein muss. Die Reduktion der Datenmenge ermöglicht es,
dafür mehr Teilnehmer gleichzeitig im Netz zu bedienen. Zur Reduktion der Daten kommen
deshalb Codecs zum Einsatz.
Ein Codec beschreibt ein Algorithmenpaar zur Encodierung und Decodierung von Daten
bzw. Signalen. Bei der Encodierung werden die Daten mittels eines gewählten Codierungs-
verfahrens in ein Format überführt, das von Vorteil für die Speicherung oder Übertragung
dieser Daten ist. Die Umwandlung der Daten dient der Kompression, welche verlustfrei oder
verlustbehaftet erfolgen kann. Nach der Aufbewahrung (Archivierung) oder Übertragung
der Daten werden die Daten decodiert, d. h. wieder zurück in ihr ursprüngliches Format
überführt.
Um eine effiziente Encodierung bzw. Datenkompression vorzunehmen, werden die Eigen-
schaften der Daten und des Übertragungsmediums berücksichtigt. Handelt es sich um
Audio-, Bild-, oder haptische Daten, können außerdem die physiologischen Eigenschaften
der menschlichen Wahrnehmung ausgenutzt werden, um eine noch bessere, verlustbehaftete
Kompression zu erzielen, die vom Menschen tolerierbar ist. Dadurch ergeben sich, je nach
Datentyp, andere Anforderungen an den Codec.
Im nachfolgenden Abschnitt wird zunächst auf die Frequenztransformation, insbesondere
die Wavelet-Transformation, für den Anwendungsfall der Datenkompression eingegangen,
welche in der Bild- und Audioverarbeitung bereits ein etabliertes Verfahren ist. Anschließend
werden die Anforderungen bzw. die ausgenutzten Eigenschaften der menschlichen Wahrneh-
mung für Audio-, Bild- und haptische Daten erläutert. Zu jeder Kategorie wird ein Codec
vorgestellt.

2.2.1 Wavelet-Transformation

Die Daten eines Signals werden oftmals im Bezug zur Zeit (z. B. Audiosignal) oder zum
Ort (z. B. Farbwerte der x-y-Koordinaten eines Bildes) gespeichert. Mithilfe einer Frequenz-
14

Abbildung 2.3: Akustisches Signal im Zeitbereich (links) und nach Transformation im Frequenzbe-
 reich (rechts). Bild in Anlehnung an: https://link.springer.com/chapter/10.
 1007/978-3-662-49355-7_7 Abb. 7.14 [letzter Zugriff: 30.12.2020]

transformation wird das Signal aus dem Orts- oder Zeitbereich in den Frequenzbereich über-
tragen. Zur Veranschaulichung zeigt Abb. 2.3 auf der linken Seite ein akustisches Signal,
das im Zeitbereich dargestellt wird. Es handelt sich um einen Dreiklang, eine Überlappung
dreier Töne unterschiedlich hoher Frequenzen. Auf der rechten Seite der Abbildung wird
das ideale Ergebnis einer Fourier-Transformation dieses Signals vorgestellt, wobei deutlich
zu sehen ist, dass die Frequenzen separat voneinander betrachtet werden können, allerdings
die Information zur Zeit-Komponente fehlt.
Neben der Fourier-Transformation gehört die Wavelet-Transformation zu den verbrei-
tetsten Frequenztransformationen. Die Wavelet-Transformation nutzt sogenannte Wavelets,
wellenförmig aussehende Basisfunktionen. Die Transformation bildet das Signal vom Orts-
bzw. Zeitraum in den Frequenzraum ab, wobei sowohl Informationen über die Frequenzen
als auch der Zeitspanne deren Auftretens kodiert werden. Abbildung 2.4 zeigt auf der linken
Seite die schematische Darstellung des Auflösungsvermögens durch die Wavelet-Analyse.
Zugunsten einer hohen Zeitauflösung des Signals werden niedrige Frequenzen im Signal
erkannt, verringert man dagegen die zeitliche Auflösung, können hohe Frequenzen besser
abgetastet werden. Die kontinuierliche Wavelet-Transformation lässt sich durch folgende
Gleichung beschreiben:

 +∞
 1 − 
 ( , ) = √ ∫ ( ( )Ψ( )) (2.2)
 −∞ 

Die Wavelet-Koeffizienten ( , ) berechnen sich durch die Multiplikation des Signals ( )
mit einem Wavelet Ψ( ). Desto ähnlicher sich Signal und Wavelet sind, desto höhere Werte
nehmen die Wavelet-Koeffizienten an. Mithilfe des Parameters lässt sich die Wavelet-
Funktion skalieren, wodurch das Wavelet breiter oder schmaler wird und somit das Auf-
lösungsvermögen bezüglich der Frequenzen bestimmt. Desto kleiner gewählt wird, des-
to schmaler wird das Wavelet (höhere Schwingung) und desto höhere Frequenzen werden
abgetastet (vgl. Abb. 2.4). Ein Wavelet kann daher auch als Bandpass-Filter bezeichnet
werden. Der Parameter bewirkt die Verschiebung der Wavelet-Funktion entlang des Si-
gnals, um die zeitliche Auflösung zu realisieren. Die Grundform einer Wavelet-Funktion wird
als Mother-Wavelet Ψ( ) bezeichnet, durch die Skalierung und Verschiebung veränderbare
Abbilder Ψ , ( ) der Funktion werden als Child-Wavelets bezeichnet, gehören der gleichen
15

 0.15 0.4
 0.1 0.3 Skalierungsstufe 1
 0.05 0.2
 0.1
 Ψ1, 0(t)
 0
 0
 hoch -0.05 -0.1
 -0.1 -0.2
 -0.15 -0.3
 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
 Ψ1/4, 1/4(t) 0.15 0.4
 Frequenz

 0.1 0.3 Skalierungsstufe 2
 0.05 0.2 Ψ1/2, 0(t)
 0.1
 -0.05
 0
 0 Ψ1/2, 1/2(t)
 -0.1
 -0.1 -0.2
 Ψ1/2, 0(t) -0.15 -0.3
 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1

 0.15 0.4
 Ψ1, 0(t) 0.1 0.3 Skalierungsstufe 3
 niedrig
 0.05 0.2 Ψ1/4, 0(t)
 t0 Zeit tmax 0
 0.1
 -0.05
 0 Ψ1/4, 1/4(t)
 -0.1
 -0.1 -0.2 Ψ1/4, 2/4(t)
 -0.15
 0 0.2 0.4 0.6 0.8 1
 -0.3
 0 0.2 0.4 0.6 0.8 1
 Ψ1/4, 3/4(t)
 Haar-Wavelets Symlet2-Wavlets

Abbildung 2.4: Links: Wavelet-Analyse, Rechts: Haar-Wavelets und Symlet2-Wavelets der jeweils
 ersten bis dritten Skalierungsstufe.

Wavelet-Familie an und werden durch folgende Gleichung beschrieben:

 1 − 
 Ψ , ( ) = √ Ψ( ) (2.3)
 
Es gibt eine große Vielfalt von Wavelet-Familien, beispielsweise Haar-Wavelets, Daubechies-
Wavelets, Morlet-Wavelets und mehr. Abbildung 2.4 zeigt in der mittleren und rechten
Spalte zwei dieser Waveletfamilien bis zur jeweils dritten Skalierungsstufe. Die schraffiert
unterlegten Abschnitte auf der linken Seite der Abbildung sind ausgewählte Beispiele und
zeigen die Frequenz- und Zeitauflösung, die mit der skalierten und verschobenen Wavelet-
Funktion im rechten Bildteil korrespondiert.
Um das Signal umfassend zu analysieren, wird die Wavelet-Transformation systematisch
auf mehreren Ebenen ihres Auflösungsvermögens angewandt, dieses Verfahren nennt sich
Multiskalenanalyse (engl. Multiresolution Analysis). Da das zu analysierende Signal meist
aus einer Abtastung diskreter Werte besteht und auch die Wavelet-Transformation in dis-
kreter Form eine schnellere Berechnung ermöglicht, wird zur Signalanalyse die Diskre-
te Wavelet-Transformation (DWT) verwendet. Eine besonders effiziente Berechnung der
Wavelet-Koeffizienten wird durch die Fast Wavelet-Transformation (FWT) realisiert, eine
Sonderform der DWT.
Die FWT berechnet die Wavelet-Koeffizienten, indem das Signal in mehreren Iterationen
eine Filterbank durchläuft [9, 10]. Die Filterbank besteht je Iteration aus einem Hoch- und
einem Tiefpassfilter, wobei die Filter durch Wavelets beschrieben werden, die das Signal
zu gleichen Teilen in eine Approximation und Details zerlegen. Abbildung 2.5 veranschau-
licht die stufenweise Zerlegung, die mit einer Reduktion der Koeffizienten einhergeht: Der
Hochpassfilter (HPF) erzeugt die Wavelet-Koeffizienten 1 , die hohe Frequenzanteile und
somit Details des Signals beschreiben. Der Tiefpassfilter (TPF) dagegen erzeugt Wavelet-
Koeffizienten, die niedrige Frequenzanteile und somit eine Approximation 1 des Signals
16

repräsentieren. Diese Approximation wird iterativ erneut in Detail- und Approximations-
Koeffizienten zerlegt, wobei sich die Anzahl der Koeffizienten stets halbiert. Mithilfe der
Inversen Fast Wavelet-Transformation (IFWT) kann das Signal vollständig wiederherge-
stellt werden, wenn die Approximations-Koeffizienten der tiefsten Interationsebene sowie
alle Detail-Koeffizienten zur Verfügung stehen (vgl. Abb. 2.5, Iterationsebene 3).
Die Zerlegung hat den Vorteil, dass auf unterschiedlichen Iterationsebenen verschiedene
Frequenzbereiche extrahiert wurden und dort abhängig von ihrem zeitlichen Auftreten ana-
lysiert werden können.
Um Daten zu komprimieren, wird meist eine Quantisierung der Koeffizienten durchgeführt,
d. h. die Koeffizienten werden diskretisiert und Koeffizienten, die einen Schwellenwert un-
terschreiten, werden verworfen.

Abbildung 2.5: Zerlegung des Signals 0 mithilfe der FWT (abwärts) und Rekonstruktion des Signals
 mithilfe der Inversen FWT (IFWT).

Parameter der Fast Wavelet-Transformation

Die FWT wird als Funktion beispielsweise in GNU Octave1 wie folgt definiert:

 = ( , Ψ, , ) (2.4)

Dabei bezeichnet die Wavelet-Koeffizienten nach der Transformation, die Inputdaten,
Ψ das Mother-Wavelet, die Anzahl der Iterationen und die Randbehandlung.
Die Wahl des Mother-Wavelet Ψ hat Einfluss auf die Eigenschaften, die mithilfe der iterati-
ven Zerlegung vom Signal extrahiert werden. Für Eigenschaften, die räumlich bzw. zeitlich
sehr nah beieinander liegen, werden Wavelets mit wenigen vanishing moments empfohlen.
Vanishing moments stehen im Zusammenhang damit, wie stark das Wavelet oszilliert. Desto
höher die Anzahl der vanishing moments, desto stärker die Oszillation. Ein stark oszillie-
rendes Wavelet benötigt mehr ’Platz’ und ist demzufolge besser für längere Signale geeignet
bzw. zum Detektieren von Eigenschaften, die nicht allzu nah beieinander liegen. Desto weni-
ger vanishing moments, desto glatter sind die Wavelets und daher zur Rauschunterdrückung
geeignet [11]. Auch die Ähnlichkeit zwischen Signal und Mother-Wavelet dient bei der Wahl
 1
 freie Programmiersprache unter GNU General Public License https://www.gnu.org/software/octave/
17

als Anhaltspunkt, da bei einer besonders hohen Einstimmung höhere Wavelet-Koeffizienten
resultieren, erzielen aber nicht in jedem Fall die beste Güte bei der Kompression [12]. Zum
Entfernen von Rauschen werden orthogonale Wavelets empfohlen [11].
Die Iterationstiefe steht im direkten Zusammenhang mit der Anzahl der Daten , da
sich durch jeden Iterationsschritt die Anzahl der Koeffizienten halbiert. Daher sollte die
Gleichung ≥ 2 erfüllen. Mit jedem Iterationsschritt werden hohe Frequenzanteile von
niedrigen Frequenzanteilen getrennt. Sollen Signaleigenschaften untersucht oder kompri-
miert werden, die sich in niedrigeren Frequenzbereichen befinden, sollte die Iterationstiefe
erhöht werden, um die Signalanteile von anderen Frequenzbereichen zu trennen. Insbeson-
dere im Bezug auf die menschliche Wahrnehmung sind hohe Frequenzanteile entbehrlich
und können verworfen werden. Besonders hohe Frequenzanteile befinden sich auf niedrigen
Iterationsstufen, beispielsweise die Detailkoeffizienten 1 in Abbildung 2.5, wodurch bereits
die Hälfte der Daten eingespart werden kann.
Die Effizienz der Filterbanken liegt in der Annahme, dass es sich bei der Anzahl der Input-
daten um eine Zweierpotenz mit dem Zusammenhang = 2 handelt. Ist dies nicht der
Fall, müssen für die Berechnung die fehlenden Daten sinnvoll ergänzt werden, bei der Rück-
transformation erhält das Signal jedoch wieder seine ursprüngliche Länge. Diese Ergänzung
wird mithilfe des (Extension) Parameter festgelegt. Die Erweiterung hat Einfluss auf
die Qualität an den Rändern der Approximation des Signals. Die häufigsten Erweiterungen
umfassen das Zero-Padding, die Periodische, oder die Symmetrische Fortsetzung mit ver-
schiedenen Stufen der Kontinuität des Signals am Randübergang. Beim Zero-Padding (engl.
äuffüllen”) werden die fehlenden Daten durch Nullen ergänzt. Für die periodische Fortset-
zung wird nach dem letzten Datenpunkt das vorliegende Signal vom ersten Datenpunkt an
wiederholt. Bei der symmetrischen Fortsetzung wird das Signal am oder nach dem letzten
Datenpunkt gespiegelt wiederverwendet.

2.2.2 Audio-Codecs

Bei der Übertragung von Audiodaten handelt es sich vorrangig um Daten, die für den
Menschen hörbare Frequenzen (Tonhöhe) zwischen 20 Hz und 20 kHz repräsentieren. Die
Frequenz gibt die Schwingung der Schallwellen pro Sekunde an. Desto höher die Frequenz,
desto höher ist der Ton. Audio-Codecs nutzen oftmals das zu erwartende Frequenzspektrum
aus. Während bei Musik das volle Frequenzspektrum des menschlichen Hörens zu erwarten
ist, werden bei der Übertragung von Sprache nur Frequenzen zwischen 300 Hz und 5 kHz
benötigt.
Neben der Tonhöhe wird auch die Tonlautstärke, der Ausschlag der Amplitude, berück-
sichtigt. Bei Audio-Daten treten Masking-Effekte auf, das heißt, dass benachbarte Töne
aufgrund ihres geringen zeitlichen Abstands und ihrer unterschiedlichen Lautstärke einan-
der überdecken bzw. übertönen können.
Zur Verarbeitung von Audiosignalen werden sowohl die Diskrete Cosinus-Transformation
(DCT) als auch die DWT genutzt, wobei jedoch keine allgemeingültige Aussage getroffen
werden kann, welche der Frequenztransformationen qualitativ höhere Ergebnisse erzielt.
18

OPUS-Codec

Der OPUS-Codec wird zur verlustbehafteten Kompression von Audiodaten verwendet, die
in Echtzeit übertragen werden sollen. Dabei zeichnet sich der Codec durch eine geringe La-
tenz Dank geringerem Rechenaufwand und hoher Güte gegenüber anderen Audio-Encodern
wie beispielsweise MP3 aus [13]. Der Opus-Codec steht unter BSD-Lizenz zur freien Verbrei-
tung und Modifikation zur Verfügung, wodurch er 2012 auch zum Internetstandard RFC
6716 [14] erhoben wurde. Opus vereint die Audio-Codecs Silk und Celt, die sich ebenfalls
durch geringe Latenzen auszeichnen. Silk [15] wurde für das Chatprogramm Skype entwi-
ckelt, um Sprache effizient für Internettelefonie und Videoanrufe zu codieren. Der Codec
nutzt Linear Predictive Coding, eine vorausschauende Berechnung der Sprachdaten mithilfe
eines vereinfachten Modells der menschlichen Stimme. Der Audio-Codec Celt [16] ist nicht
nur auf die menschliche Stimme, sondern auf das gesamte Spektrum des menschlichen Hö-
rens ausgelegt und nutzt das Verfahren der Modifizierten Diskreten Cosinus-Transformation
(MDCT), um die Daten zu quantifizieren und anschließend zu komprimieren. Dadurch ist
er auch für die hohe qualitative Übertragung von Musik geeignet.
Der Opus-Codec zeichnet sich unter anderem durch folgende Spezifikationen aus [13]:
 • konstante und variable Bitraten von 6 kbit/s bis 510 kbit/s
 • Abtastrate von 8 kHz bis 48 kHz
 • Frame-Größe von 2,5 ms bis 60 ms
Die Spezifikationen sind wie folgt zu deuten: Der Opus-Codec bietet die Möglichkeit, eine
konstante Einsparung der Daten festzulegen, indem die Bitrate, sprich die Anzahl der zu
übertragenden Daten pro Sekunde, festgelegt wird. Die Abtastrate gibt an, in welchem Fre-
quenzspektrum Daten erfasst und verarbeitet werden können und entsprechen hierbei dem
Spektrum, das bei Sprache (narrowband) bis hin zu Musik (fullband) entsteht. Die Frame-
Größe kann sich adaptiv verhalten, aber auch auf einen Wert festgelegt werden. Letztere
Option bietet die Möglichkeit, eine konstante Latenz einzuplanen, die für die Datenüber-
tragung hinnehmbar ist.

2.2.3 Bildkompression

In der Bildverarbeitung liegen digitale Bilder in Form eines 2D-Signals vor, das die Pixelwer-
te in Abhängigkeit von X-Y-Koordinaten einer Bildebene enthält. Dagegen ist das Signal,
das die Augen erreicht, eine Überlappung mehrerer Lichtwellen, bestehend aus Frequenzen,
Amplituden und Phasen, die erst durch mehrere Verarbeitungsschritte vom Sehapparat und
Gehirn wahrgenommen werden können. Da die Wahrnehmung der Bildinformation über
Lichtwellen stattfindet, werden zur Bildkompression psychovisuelle Modelle herangezogen,
die sich oftmals auf die Repräsentation des Signals in Form von Frequenzkomponenten
beziehen, wodurch auch in der Bildverarbeitung Frequenztransformationen wichtige Werk-
zeuge sind.
Es gibt verschiedene psychovisuelle Modelle, die bei der Bildverarbeitung und -kompression
zutragen kommen. Sie geben Aufschluss darüber, welche Informationsbestandteile von hö-
herer oder geringerer Bedeutung für die Wahrnehmung sind. Eine Möglichkeit zur Daten-
reduktion besteht darin, die weniger bedeutsamen Bestandteile wegzulassen. Beispielsweise
19

ist bekannt, dass das menschliche Auge mehr Rezeptoren zur Wahrnehmung von Helligkeit
gegenüber der Farbwahrnehmung besitzt. Auch kann das Auge mehr Grün- und Rottöne
im Vergleich zu Blautönen unterscheiden. Des Weiteren ist das menschliche Auge hohen
Frequenzen gegenüber unempfindlicher, umgekehrt heißt dies, dass die Bildinformation vor
allem den niedrigen und mittleren Frequenzen entnommen wird. Bildlich gesprochen stellen
niedrige und mittlere Frequenzen im Ortsraum Flächen und langsame Farb- bzw. Hellig-
keitsverläufe dar. Hohe Frequenzen dagegen sind Bilddetails, die Unterschiede zwischen eng
beieinander liegenden Pixeln. Die Unempfindlichkeit des Auges gegenüber hohen Frequen-
zen zeigt sich insbesondere beim Betrachten von verrauschten Bildern, deren Inhalt trotz
des hochfrequenten Störsignals hinreichend vom Betrachter erfasst werden kann. Mithilfe
der Frequenztransformation ist es möglich, die sich überlappenden Frequenzen voneinander
zu trennen und isoliert zu betrachten.

JPEG Standard

Das standardisierte Kompressionsverfahren JPEG2 nutzt die DCT, eine Sonderform der
Diskrete Fourier-Transformation (DFT), um Bildsignale umzuwandeln und zu komprimie-
ren. Zuvor werden bei Farbbildern die Farbräume des Bildes voneinander getrennt und
separat behandelt. Da Helligkeiten gegenüber Farbtönen besser wahrgenommen werden,
können durch diese Trennung bereits 50 % der Daten ohne sichtbaren Unterschied für den
Nutzer eingespart werden [17, S.346]. Im zweiten Schritt wird das Bild in 8 × 8 Pixel große
Blöcke eingeteilt, die separat mithilfe der DCT transformiert werden. Daraus resultieren 64
Fourier-Koeffizienten, welche die Bildinformation in Form von unterschiedlichen Frequenzen
repräsentieren. Desto größer der Betrag des Koeffizienten, desto häufiger wurde die Fre-
quenz im Bild detektiert. Natürliche Bilder enthalten mehr Flächen (niedrige Frequenzen)
als Details (hohe Frequenzen), daher sind die Koeffizienten der niedrigen Frequenzanteile
größer und nehmen in Richtung der hohen Frequenzen ab. Zur Kompression der Daten
nutzt man die Eigenschaften aus, dass das menschliche Auge gegenüber hohen Frequenzen
unempfindlicher ist. Dazu wird bei der Quantisierung eine systematische Abschwächung der
Koeffizienten mit zunehmender Frequenz durchgeführt. Anschließend werden sehr niedrige
Koeffizienten, die einen Schwellenwert unterschreiten, auf Null abgerundet. Zuletzt werden
die Koeffizienten durch verlustfreie Kompressionsverfahren wie Runlength-Encoding und
Huffman-Codierung noch stärker komprimiert.
Im Gegensatz zur Wavelet-Transformation nutzt die DCT cosinus-förmige Basisfunktionen,
welche weniger geeignet sind, die Frequenzinformation in Abhängigkeit vom Ort zu kodie-
ren. Diese Eigenschaft trägt nach der Kompression zu deutlich sichtbaren Bildartefakten bei.
Diese Bildfehler betreffen zumeist Unstetigkeiten an den Übergängen benachbarter Bildblö-
cke und die schlechte Wiedergabe von Kanten. Aufgrund der Nachteile der Kompression
mittels DCT wird im JPEG 20003 Standard die Nutzung der DWT empfohlen.

 2
 Joint Photographic Expert Group, siehe https://jpeg.org
 3
 https://jpeg.org/jpeg2000/index.html
20

2.2.4 Haptische Codecs

Haptische Codecs sind für das Taktile Internet von besonderem Interesse, da sie die effi-
ziente Übertragung haptischer Daten zwischen Komponenten eines Teleoperationssystems
ermöglichen sollen. Steinbach et al. [4] stellen haptische Codecs für das Taktile Inter-
net vor und unterscheiden dabei zwischen Codecs, die taktile Daten oder kinästhetische
Daten komprimieren. Zur Kompression taktiler Daten ist eine aufwendige Aufnahme und
Analyse der Interaktion mit dem Material nötig. Die Daten liegen als wellenförmige (engl.
waveform-based) oder parametrische Repräsentation vor, auf welche die Anwendung unter-
schiedlicher Codecs möglich ist. Zur Codierung gibt es die Möglichkeit, die aufgezeichneten
Daten in einer Datenbank zu hinterlegen und zur Decodierung aus dieser abzurufen, statt
die Daten vollständig zu übertragen. Bei unbekannten Materialien kann auf Ergebnisse
der Datenbanken zurückgegriffen werden, welche dem Material am ähnlichsten sind, um
deren Decodierung zu nutzen. Als weitere Möglichkeit zur Kompression wird die Entleh-
nung von Audio-Codecs vorgeschlagen, da taktile Signale in wellenförmiger Repräsentation
Ähnlichkeiten zu Audiosignalen aufweisen [18].
Für kinästhetische Codecs definiert das Projekt IEEE P1918.1.1 “Haptic Codecs for Tactile
Internet“ die Anforderungen wie folgt [4]:
 • Anpassungsfähigkeit an die Paketrate des Übertragungskanals
 • Minimale Verzögerung durch den Codierungsalgorithmus
 • Kontrollschema (Anpassungsfähigkeit an Verzögerungen)
 • Fähigkeit zur Anwendung in Echtzeit

Weber-Codec

Als Beispiel für einen kinästhetischen Codec wird nachfolgend die Kompression mittels
Perceptual Deadband vorgestellt, da sich diese als simpler, aber effektiver Codec erwiesen
hat [4]. Da die Kompression mithilfe des Weber-Gesetzes (vgl. Abschnitt 2.1.1) erzielt wird,
wird der Codec zur besseren Lesbarkeit in der vorliegenden Masterarbeit als “Weber-Codec“
bezeichnet.
Das Weber-Gesetz gibt eine Konstante weber an, die beschreibt, wie groß der Unterschied
zwischen zwei Signalintensitäten sein muss, damit die Veränderung vom Menschen wahrge-
nommen werden kann. Der Begriff Perceptual Deadband beschreibt den gegenteiligen Fall:
Eine Stimulusänderung, die weber unterschreitet, kann nicht wahrgenommen werden. Um
kinästhetische Daten zu komprimieren, wird die Weber-Konstante als Schwellenwert genutzt
[4]. Zur Codierung werden nur jene Daten übertragen, die die Schwelle im Bezug auf den zu-
letzt gesendeten Wert überschreiten bzw. unterschreiten. Abbildung (2.6) zeigt ein solches
Signal, wobei die schwarzen Punkte die übertragenen Daten, und die grauen Balken den
Bereich des Perceptual Deadband anzeigen, innerhalb dessen die Daten verworfen werden
können. Seitens der Decodierung werden die fehlenden Werte solange durch den alten Wert
ersetzt, bis ein neuer empfangen wird. Eine andere Variante des Weber-Codecs, genannt
Perceptual Deadband with signal-based predictive coding, sieht nicht Wiederverwendung des
zuletzt gesendeten Wertes, sondern eine Extrapolation des bisher empfangenen Signals vor
[19].
21

Abbildung 2.6: Veranschaulichende Darstellung des Perceptual Deadbands. Der relative Schwellen-
 wert ist abhängig von der Signalintensität . Signale, die den Schwellenwert weber
 unterschreiten, können nicht wahrgenommen und verworfen werden. (Bildquelle: [4,
 S. 8])

Die Ergebnisse von Steinbach et al. [4] zeigen, dass die durchschnittliche Übertragungs-
rate der Datenpakete mithilfe des Weber-Codecs um 80-90 % reduziert wird. Anhand der
Ergebnisse aus Steinbach et al. [4] lassen sich konkrete Werte für den Parameter weber
ablesen, um die Einsparung von 80-90 % zu erhalten: Für die kinästhetische Messgröße
Kraft liegt weber zwischen 0,02 und 0,05, für die kinästhetische Messgröße Geschwindigkeit
zwischen 0,15 und 0,3.

2.3 Evaluation haptischer Codecs

Um eine Evaluation vornehmen zu können, müssen Metriken festgelegt werden, mit denen
die Güte eines haptischen Codecs bewertet werden kann.
Steinbach et al. [4] führt für den kinästhetischen Weber-Codec eine Machbarkeitsstu-
die durch, um eine Aussage darüber zu treffen, ob der Codec als Standard für haptische
Codecs geeignet ist. Dazu werden unter anderem die Übertragungsrate, der Root Mean
Squared Error (RMSE) und der Perceptual Mean Squared Error (PMSE) genutzt, um die
Übertragung originaler und Weber-codierter Daten zu vergleichen. Bei diesen drei Quali-
tätsmaßen handelt es sich um Maße, die durch Berechnungen ermittelt werden und somit
nutzerunabhängig sind.

2.3.1 Kompressionsrate

Die Kompressionsrate k ist ein quantitatives Maß, um das Verhältnis der Datenmengen
 kompr einer unkomprimierten und einer äquivalenten, komprimierten Datei unkompr aus-
zudrücken. Sie gibt an, durch welchen Wert die unkomprimierte Datei geteilt werden muss,
um die Datenmenge der komprimierten zu errechnen.

 unkompr
 k = (2.5)
 kompr

Eine Kompressionsrate von 10 gibt beispielsweise an, dass eine Datei der Größe 200 Bytes
auf eine Größe von 20 Bytes komprimiert wird (200 Bytes / 10 = 20 Bytes).
Im direkten Zusammenhang mit der Kompressionsrate steht der Kompressionsfaktor. Dieser
Wert gibt an, mit welcher Zahl die unkomprimierte Datengröße multipliziert wird, um die
22

komprimierte Datengröße zu errechnen.

 kompr
 k = (2.6)
 unkompr

Ein Kompressionsfaktor k von 10 % bzw. 0,1 komprimiert eine Datei von 200 Bytes auf eine
Größe von 20 Bytes (200 Bytes * 0,1 = 20 Bytes). Um die Einsparung der Datenmenge stär-
ker hervorzuheben, wird oftmals auch angegeben, um welchen Prozentsatz die Datenmenge
reduziert wird, wobei man den Differenzbetrag 1 − k in Prozent angibt. Beispielsweise wird
bei einem Kompressionsfaktor von 10 % die Datenmenge um 90 % reduziert.

2.3.2 MSE - Mean Squared Error

Der Mean Squared Error (MSE) ist ein Qualitätsmaß der Statistik und bewertet eine Schätz-
funktion hinsichtlich ihrer Varianz (zufälliger Fehler) und ihrer Verzerrung (systematischer
Fehler) [20]. Diese Metrik beschreibt den relativen Fehler und wird wie folgt berechnet:

 ( ̂ − )2
 MSE = ∑ (2.7)
 =1
 
Dabei sind ̂ die geschätzten Werte und die beobachteten Werte, ist die Anzahl der
Beobachtungen. Beim Vergleich der MSE zweier Schätzfunktionen wird der Schätzer mit
dem kleineren MSE als besser eingeschätzt.

2.3.3 RMSE - Root Mean Squared Error

Der RMSE ist aus der Statistik als Standardabweichung bekannt. Er gibt an, wie stark
geschätzte Werte von den beobachteten Werten abweichen, wobei diese Abweichung als
absoluter Wert angegeben wird [21]. Dieser Fehlerwert wird wie folgt berechnet:

 √
 √ ( ̂ − )2
 RMSE = √∑ (2.8)
 
 ⎷ =1

Dabei sind ̂ die geschätzten Werte und die beobachteten Werte, ist die Anzahl der
Beobachtungen. Beim Vergleich der RMSE zweier Schätzfunktionen wird der Schätzer mit
dem kleineren RMSE als besser eingeschätzt.

2.3.4 PMSE - Perceptual Mean Squared Error

Der PMSE wird von Chaudhari et al. [22] vorgestellt und ist dem MSE nachempfun-
den, wichtet die Abweichung zwischen geschätzten und beobachteten Werte aber entspre-
chend der menschlichen Wahrnehmung. Hergeleitet wird der PMSE unter Zuhilfenahme
23

des Weber-Fechner-Gesetzes, das den Zusammenhang zwischen dem technisch gemessenem
Signal und dem wahrgenommenen Sinneseindruck beschreibt:

 = ⋅ ( ) (2.9)
 0

Dabei bezeichnet den Sinneseindruck in der Domäne der Wahrnehmung. Die Variable ist
eine experimentell ermittelte Skalierungskonstante, ist die technisch gemessene Stärke des
Stimulus und 0 der Schwellenwert, unter welchem der Stimulus nicht mehr wahrgenommen
werden kann.
Bei einer Beobachtung von Datenpunkten über die Zeit beschreibt der PMSE den Fehler
in der Domäne der Wahrnehmung wie folgt [22, S. 542]:

 1 ̂ 2
 PMSE = ⋅ ∑( ( ) − ( ))
 =1
 2
 (2.10)
 2 
 = ⋅ ∑( ( ))
 =1 ̂

Entsprechend repräsentieren und ̂ die technisch gemessene Stärke des beobachteten
 ̂
Signals ( ) und des geschätzten Signals ( ), welches durch Anwendung eines Codecs
entstanden ist.

2.4 Verwandte Arbeiten

Der Artikel von Steinbach et al. [4] gibt eine Übersicht über den Stand der Technik von
haptischen Codecs. Dazu werden die wichtigsten haptischen Aspekte vorgestellt, die für
die Entwicklung wahrnehmungsbasierter Modelle herangezogen werden, welche in den hap-
tischen Codecs mit einfließen. Des Weiteren werden Metriken zur qualitativen Evaluation
der haptischen Codecs zusammengetragen. Zusäzlich wird ein kinästhetischer Codec mittels
Perceptual Deadband (vgl. Abschnitt 2.2.4) vorgestellt, der zum Standard für kinästhetische
Codecs gemacht werden soll. Die Evaluation des kinästhetischen Codecs zeigen eine starke
Datenreduktion und Eignung zum Standard.
Die Arbeit von Xu et al. [23] gibt eine Übersicht über Model-Mediated Teleoperation.
Der Ansatz dient insbesondere der Aufrechterhaltung einer stabilen Interaktion zwischen
Master- und Slave-System, auch wenn starke Verzögerungen in der Datenübertragung auf-
treten. Um ein kontinuierliches haptisches Feedback trotz verzögerter Übertragung zu er-
halten, wird lokal die Interaktion mit einem Modell des Interaktionsobjektes approximiert.
Sobald die Feedbackdaten vom Slave-System eintreffen, wird das Modell entsprechend ak-
tualisiert. Bei MMT-Systemen gibt es verschiedene Ansätze, um lokal Feedback zu erzeugen
und die Daten mit dem Slave-System auszutauschen. Das Paper gibt eine Übersicht über die
Herausforderungen für MMT-Systeme, welche Techniken zum Erzeugen und Austausch des
Feedbacks bereits etabliert sind, und präsentiert Resultate aus verschiedenen Experimen-
ten. Solche Modelle sind eher ungeeignet für unbekannte Umgebungen oder Interaktionen,
da sie eher für simple Interaktionen gedacht sind.
24

Der Beitrag von Tanaka u. Ohnishi [24] stellt eine Kompression haptischer Daten für die
Speicherung mittels DCT vor. Zur Überprüfung wird eine Fallstudie mit einem Teleope-
rationssystem durchgeführt, das die Bewegung des Master-Systems aufzeichnet, um diese
später wieder auf einem Teleoperationssystem auszuführen. Mithilfe des vorgestellten Co-
decs wurden die Daten auf mindestens ein Viertel ihrer ursprünglichen Größe komprimiert,
wobei die Abweichungen der decodierten Daten gering blieb. Der Codec soll in zukünfti-
gen Arbeiten auch für Echtzeitanwendungen angepasst werden und ein haptisches Modell
entwickelt werden, das in den Algorithmus mit einfließt.
Die Arbeit von Noll et al. [25] stellt einen vibrotaktilen Codecs (für Texturen, Oberflä-
chen) mittels Wavelet-Transformation vor. Der Codec nutzt die DWT, wahrnehmungsba-
sierte Modelle für taktile Daten, Quantisierung und verlustfreie Kompression aus, um eine
hohe Kompression zu erzielen. Die Ergebnisse zeigen eine Kompression um 10 %, wobei
für die meisten Signale keine Beeinträchtigung in der taktilen Wahrnehmung verzeichnet
wurde.
Der Artikel von Srinivasan et al. [26] stellt eine Audiokompression durch Adaptive Wa-
velet Packet Decomposition vor, die auf eine hohe Audioqualität abzielt. Zur Kompres-
sion wird ein psychoakustisches Modell herangezogen, das auf verschiedenen Ebenen des
Wavelet-Filters angewandt wird. Dank hoher Anpassungsfähigkeiten an verfügbare Ressour-
cen wie Paketrate oder Rechenleistung wird in der Evaluation das Verfahren als geeignet
für die Übertragung im Internet und zur Speicherung der Daten eingestuft.
Die Arbeit von Xia et al. [27] stellt eine Methode vor, die Wavelet-Transformation zur
Rauschunterdrückung in Echtzeit zu nutzen. Dazu wird die Wavelet-Transformation auf ein
Moving Window angepasst, das nur einen Teil des Signals berücksichtigt und mithilfe des-
sen ein aktueller Datenpunkt geglättet wird. Die Evaluation bezieht sich auf ein künstlich
erzeugtes Signal, dessen idealer Verlauf bekannt ist und anhand dessen die Leistung der
Rauschunterdrückung evaluiert werden kann. Die Evaluation umfasst verschiedene Para-
meteruntersuchungen und zeigt eine Eignung der vorgestellten Methode für Echtzeitanwen-
dungen auf.
KAPITEL 3

 Konzept

Die Datenübertragung für haptische Interaktionen über das Netzwerk gewinnt durch das
Taktile Internet immer mehr an Bedeutung. Es werden effiziente Methoden gebraucht, um
die große Menge an haptischen Daten zu übertragen.
Der Standard IEEE P1918.1.1 definiert haptische Codecs für das Taktile Internet. Diese
Codecs werden in kinästhetische und haptische Codecs unterteilt. Derzeit befindet sich der
kinästhetische Codec mittels Perceptual Deadband im Standardisierungsprozess, da er eine
effiziente Übertragung ermöglicht und den Anforderungen an kinästhetische Codecs gerecht
wird, die ebenfalls durch den Standard IEEE P1918.1.1 erarbeitet wurden.
Zur Codierung taktiler Daten existieren Ansätze, welche Frequenztransformationen zur effi-
zienten Kompression einsetzen. Frequenztransformationen sind ein beliebtes Werkzeug der
Signalverarbeitung, da sie eine wahrnehmungsbasierte Kompression ermöglichen und mit
ihnen hohe Kompressionsraten bei guter bis sehr guter Qualität erzielt werden können. Im
Bereich der Bildverarbeitung sind sowohl die DCT als auch die DWT in den Standards
JPEG und JPEG 2000 enthalten. Die Eignung der DCT für taktile Daten, die für ein Moti-
on Copy System gespeichert werden, wurde von Tanaka u. Ohnishi [24] nachgewiesen. Ein
Beitrag von Noll et al. [25] zeigt die Eignung der DWT für die Codierung vibrotaktiler
Daten.
Bislang wurde nicht untersucht, ob sich die Wavelet-Transformation auch für die effiziente
Übertragung kinästhetischer Daten eignet. Nachfolgend wird deshalb ein Konzept für einen
kinästhetischen Codec erarbeitet, der auf Wavelets basiert.
Die Wavelet-Transformation eignet sich, um ein Signal in seine Zeit- und Frequenzbestand-
teile zu zerlegen und diese separat voneinander zu verarbeiten. Betrachtet man den kin-
ästhetischen Codec mittels Perceptual Deadband (Weber-Codec), ist zu erkennen, dass zu
geringe Änderungen in den Daten verworfen werden. Dadurch entsteht ein Signal mit einem
geglätteten Verlauf.
In der Bildverarbeitung bedeuten glatte Flächen bzw. Kurven im Ortsraum nach der Trans-
formation niedrige Frequenzen im Frequenzraum. Um eine Glättung des Bildsignals im Fre-
quenzraum vorzunehmen, besteht die Möglichkeit, einen Tiefpassfilter auf die Koeffizienten
der Transformation anzuwenden. Der Tiefpassfilter lässt niedrige Frequenzen passieren, ho-
he Frequenzen werden verworfen. Durch das Verwerfen der Koeffizienten hoher Frequenzen
26

werden Daten eingespart. Im Gegenzug werden im Bild die Rauschanteile, aber auch Kanten
(Bilddetails) abgeschwächt.
Die Analogie zeigt, dass ähnlich zur visuellen Wahrnehmung, die gegenüber hohen Frequen-
zen unempfindlicher ist, auch die hohen Frequenzanteile im haptischen Signal verworfen
werden können, solange sich diese unter der haptischen Wahrnehmungsschwelle befinden,
die durch den Weber-Quotienten beschrieben werden.
Die FWT nutzt in jedem Iterationsschritt ein Filterpaar bestehend aus Hoch- und Tief-
passfilter, welches das Signal zu gleichen Teilen in Approximations- und Detailkoeffizienten
zerlegt. Wenn die Detailkoeffizienten für Änderungen im Signal stehen, die den Weber-
Quotienten unterschreiten, können die Koeffizienten ohne Nachteil für die haptische Wahr-
nehmung verworfen werden. Da die Detailkoeffizienten bereits im ersten Iterationsschritt
die Hälfte der Datenmenge ausmachen, kann so eine Einsparung von mindestens 50 %
erzielt werden. Liegen auch die Detailkoeffizienten der zweiten Iterationsstufe unter der
Wahrnehmungsschwelle, könnten bereits 75 % der Daten eingespart werden.
Die wahrnehmungsbasierte Kompression ist hilfreich für die Übertragung von haptischen
Daten, die innerhalb des Teleoperationssystems vom Slave-System an das Master-System
gesendet werden, wie es beispielsweise bei einer Rückkopplung (Feedback) nötig ist. Im um-
gekehrten Fall, der Datenübertragung vom Master-System an das Slave-System, führt die
Glättung der Daten durch den Ansatz des Weber-Codecs zu sprunghaften Übergängen, die
beispielsweise bei der Ausübung von Kräften oder Bewegungen zu ruckartigem Verhalten
führen, das seitens des Slave-Systems feiner aufgelöst werden kann. Beim Perceptual Dead-
band gibt es daher den Ansatz, die Decodierung um eine Extrapolation der zuletzt erhalte-
nen Datenwerte zu erweitern, wodurch der Signalverlauf besser geschätzt wird und zudem
weitere Einsparungen in der Datenübertragung ermöglicht werden. Mithilfe der Wavelet-
Transformation wird dagegen eine Approximation des Signals übertragen, die bei der Deco-
dierung (Rücktransformation) sanftere Übergänge zwischen den Datenpunkten erzeugt. Ein
weiterer positiver Effekt ist das Filtern kleinster, ungewollter Bewegungen (ähnlich einem
Rauschen oder Zittern), die bei einem naiven Ansatz des Weber-Codecs insbesondere im
Bereich nahe der absoluten Wahrnehmungsschwelle übertragen werden würden.
Ein wesentlicher Nachteil der Wavelet-Transformation besteht darin, dass eine größere Men-
ge Daten benötigt wird, um die Transformation darauf anwenden zu können. Um die
Wavelet-Transformation für Echtzeitanwendungen nutzbar zu machen, kann ein Ansatz
verwendet werden, der die Rauschunterdrückung mit Wavelets in Echtzeit beschreibt [27],
wobei die DWT nur auf eine Teilmenge der Daten angewendet wird. Dazu muss der zeitli-
che Abschnitt, d. h. die Fensterbreite der Daten, ausreichend klein gewählt werden, sodass
bei konstanter Samplerate die Verzögerung unterhalb der Wahrnehmungsschwelle liegt. Die
Wavelet-Transformation hat die Eigenschaft, bei geringer zeitlicher Auflösung hohe Fre-
quenzen abtasten zu können (vgl. Kapitel 2.2.1, Abb. 2.4). Daher ist es trotz einer geringen
zeitlichen Auflösung möglich, den hochfrequenten Anteil der kinästhetischen Daten zu fil-
tern, die bezüglich der menschlichen Wahrnehmung verlustfrei verworfen werden können.
Bei einer größeren Fensterbreite ist anzunehmen, dass eine größere Iterationstiefe zum Fil-
tern des Signals und damit das Verwerfen einer größeren Datenmenge möglich ist.
Sie können auch lesen