Communication and Networked Systems - ComSys
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
FACULT Y OF COMPUT ER SCIENCE Communication and Networked Systems Masterarbeit Entwicklung eines Wavelet-Codecs zur effizienten Übertragung haptischer Daten Sophie Herbrechtsmeyer Betreuer: Prof. Dr. rer. nat. Mesut Güneş Betreuender Assistent: M.Sc. Frank Engelhardt Institut für Intelligente Kooperierende System, Otto-von-Guericke-Universität Magdeburg 02.02.2021
Inhaltsverzeichnis 1 Einleitung 7 2 Grundlagen 9 2.1 Taktiles Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.1 Haptische Wahrnehmung, Weber-Gesetz . . . . . . . . . . . . . . . . 9 2.1.2 Teleoperationssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Codecs und Datenkompression . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.1 Wavelet-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.2 Audio-Codecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.3 Bildkompression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.4 Haptische Codecs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3 Evaluation haptischer Codecs . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3.1 Kompressionsrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3.2 MSE - Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . 22 2.3.3 RMSE - Root Mean Squared Error . . . . . . . . . . . . . . . . . . . 22 2.3.4 PMSE - Perceptual Mean Squared Error . . . . . . . . . . . . . . . . 22 2.4 Verwandte Arbeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3 Konzept 25 3.1 Wavelet-Codec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2 OPUS-Codec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4 Fallstudie Quadrocopter 31 4.1 Versuchsaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.1.1 Nintendo Wii Fernbedienung und libwiimote . . . . . . . . . . . . . 32 4.1.2 Parrot Bebop 2 und ARDroneSDK3 . . . . . . . . . . . . . . . . . . 33 4.2 Datenakquisition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.2.1 Parameter für Weber-Codec . . . . . . . . . . . . . . . . . . . . . . . 36 4.2.2 Parameter für Wavelet-Codec . . . . . . . . . . . . . . . . . . . . . . 36 4.2.3 Parameter für OPUS-Codec . . . . . . . . . . . . . . . . . . . . . . . 37 4.3 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5 Evaluation 43 5.1 Kompressionsfaktor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.2 Perceptual Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.3 Root Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
iv 5.4 Latenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.5 Komplexität des Kontrollschemas . . . . . . . . . . . . . . . . . . . . . . . . 48 6 Fazit 51 6.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 6.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Literatur 53 Anhang 55
Zusammenfassung Zusammenfassung Um eine immersive und sichere Interaktion mit Teleoperationssystemen zu ermöglichen, wird eine große Anzahl von Sensordaten benötigt, die drahtlos zwischen den Teleoperations- komponenten übertragen werden. Es werden geeignete Codecs benötigt, um die begrenzte Bandbreite der Übertragung effizient zu nutzen. Die vorliegende Masterarbeit erarbeitet ein Konzept für einen Codec auf Basis von Wavelets, der kinästhetische Daten codiert. Zur Überprüfung der Effizienz wird eine Fallstudie mit einem Quadrocopter durchgeführt. Der vorgestellte Wavelet-Codec sowie zwei weitere kinästhetische Codecs werden auf die Daten angewandt und die Ergebnisse miteinander verglichen. Die Evaluation spricht für eine Eignung des vorgestellten Wavelet-Codecs für die effiziente Codierung kinästhetischer Daten. Abstract To secure an immersive and safe interaction for a user with a teleoperating systems, a high amount of sensory data is needed, which is transmitted wireless between the compon- ents of a teleoperating system. Therefore we need suitable codecs to use the bandwidth of transmission in an efficient way. This master thesis develops a codec concept based on Wavelet-Transformation that is applied on kinesthetic data. To verify the efficiency of the codec a case study of a quadrocopter teleoperating system is realized. The Wavelet codec and two other kinesthetic codecs are applied on the kinesthetic data to compare their re- sults. The evaluation of the Wavelet codec shows promissing results as an efficient codec for kinesthetic data.
Abkürzungsverzeichnis MSE Mean Squared Error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .22 RMSE Root Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 PMSE Perceptual Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 ITU International Telecommunication Union . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 HMI Human-Machine Interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 DFT Diskrete Fourier-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 DCT Diskrete Cosinus-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 DWT Diskrete Wavelet-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 FWT Fast Wavelet-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 IFWT Inverse Fast Wavelet-Transformation IFWT Inversen Fast Wavelet-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 JND Just-Noticeable-Difference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 TPF Tiefpassfilter. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15 HPF Hochpassfilter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 SDK Software Developement Kit
4 SDK Software Developement Kits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Symbolverzeichnis Symbol Beschreibung MSE Mean Squared Error PMSE Perceptual Mean Squared Error RMSE Root Mean Square Error k Kompressionsfaktor Skalierungskonstante des Perceptual Mean Square Errors weber Weber-Quotient, Weber-Konstante Datenmenge, Anzahl der Datenpunkte einer Messung kompr komprimierte Datenmenge unkompr unkomprimierte Datenmenge k Kompressionsrate gemessener Sinneseindruck in der Domain der Wahrnehmung ̂ geschätzter Sinneseindruck in der Domain der Wahrnehmung Zeitspanne oder Zeitpunkt gemessener Wert eines Datenpunktes oder Stimulus ̂ geschätzter Wert eines Datenpunktes Wavelets Approximations-Wavelet-Koeffizienten einer j-ten Iteration Wavelet-Koeffizienten Detail-Wavelet-Koeffizienten einer j-ten Iteration Extrapolationsmethode der FWT Anzahl der Iterationen (Stufen) einer Wavelet-Filterbank Ψ Mother-Wavelet Skalierungsfaktor eines Wavelets Verschiebung eines Wavelets Fensterbreite
KAPITEL 1 Einleitung Die Entwicklung moderner Mobilfunktechnologie in den letzten Jahren, insbesondere die Erweiterung der Bandbreite und Senkung der Latenz, schaffen im Bereich der Teleoperation neue Möglichkeiten, die bestehenden Interaktionskonzepte zu verbessern und neue Konzepte hinzuzufügen. Teleoperationssysteme haben vielfältige Anwendungsmöglichkeiten, in denen eine möglichst immersive und sichere Interaktion mit einem räumlich entfernten Objekt im Vordergrund steht. Ein Anwendungsfall ist die Telechirurgie. Hierbei wird der chirurgische Eingriff nicht direkt am Patienten ausgeführt, sondern der Eingriff über ein Teleoperationssystem unter- stützt, das die Bewegungen des Chirurgen auf kleinere Bewegungen des Systems überträgt. Dadurch können feiner aufgelöste Bewegungen ausgeführt werden, zusätzlich werden unge- wollte Bewegungen wie leichtes Händezittern gedämpft. In diesem Anwendungsfall ist das haptische Feedback des Gewebes von großer Bedeutung, da es dem Chirurgen Aufschluss über die Gewebeeigenschaften liefert. Um die Interaktionsmöglichkeiten weiter zu verbessern, werden immer mehr Sensoren eta- bliert, die nicht nur die auditive und visuelle Wahrnehmung der Interaktion unterstützen, sondern auch die taktile Wahrnehmung verbessern. Mit wachsender Anzahl von Sensoren wird zur Übertragung aber auch mehr Bandbreite benötigt, die eine begrenzte Ressource ist. Das Taktile Internet befasst sich mit der Problemstellung, eine Interaktion zu ermög- lichen, welche den Anforderungen der menschlichen Sinne an die Interaktion gerecht wird. Dazu ist es nötig, die wachsende Menge der Daten effizient zu übertragen. Zu diesem Zweck werden entsprechende Codecs genutzt und weiterentwickelt. Für die Codierung von Bild- und Audiodaten sind bereits Codecs etabliert, doch für die haptische Datencodierung wer- den ebenfalls geeignete Codecs benötigt. Es stellt sich die Frage, ob Codecs aus der Bild- und Videocodierung auch für haptische Daten geeignet sind.
8 Aufbau dieser Masterarbeit Im nächsten Kapitel werden die Grundlagen zum Themengebiet beschrieben sowie ver- wandte Arbeiten vorgestellt. In Kapitel 3 wird das Konzept dieser Arbeit vorgestellt, das einen Codec für haptische Daten beschreibt und eine Hypothese zur Eignung des Codecs für kinästhetische Daten abgeleitet. In Kapitel 4 wird die Durchführung einer Fallstudie am Beispiel eines Quadrocopters beschrieben und die Ergebnisse vorgestellt, anhand derer die Hypothese überprüft werden soll. In Kapitel 5 wird die Evaluation der Ergebnisse durchge- führt und eine Einschätzung zur Hypothese gegeben. Kapitel 6 gibt eine Zusammenfassung dieser Arbeit und einen Ausblick, um die Ergebnisse der Arbeit noch zu verbessern.
KAPITEL 2 Grundlagen In diesem Kapitel werden grundlegende Informationen gegeben, die zur Bearbeitung des Themas der vorliegenden Masterarbeit, der “Entwicklung eines Wavelet-Codecs zur effi- zienten Übertragung haptischer Daten“, benötigt werden. Zunächst werden Begriffe des Taktilen Internets definiert und miteinander in Bezug gesetzt. Anschließend werden ausge- wählte, standardisierte Codecs und ihre Funktionsweise vorgestellt. Zuletzt folgt ein kurzer Einblick in die Qualitätsmetriken haptischer Codecs, die für die Auswertung der Ergebnisse der vorliegenden Masterarbeit relevant sind. 2.1 Taktiles Internet Der Begriff des Taktilen Internets steht für ein leistungsstarkes, verlässliches Netzwerk, das zukünftig eine neue Art der Interaktion zwischen Mensch und Maschine (engl.: Human- Machine Interaction (HMI)) ermöglichen soll. Neben extrem hohen Datenraten und Teil- nehmerzahlen, soll eine Interaktion in Echtzeit möglich sein. Der Begriff Echtzeit wird in diesem Fall über die Reaktionszeit der Wahrnehmung des Menschen definiert, welcher bei der Interaktion mit dem Systeme keine Verzögerung bemerken soll. Neben auditiver und visueller Wahrnehmung, die Latenzen von 100 ms bis 10 ms tolerieren, werden für die taktile Wahrnehmung Latenzen von 1 ms durch die International Telecommunication Union (ITU) gefordert [1]. Bei der Interaktion von Mensch und Maschine werden kontinuierlich neue Daten erfasst, die zeitnah verarbeitet werden müssen. Für Interaktionen von Mensch und Maschine gibt es verschiedenste Ein- und Ausgabegeräte. Sollen beispielsweise komplexe Bewegungen übertragen werden, ist ein Teleoperationssys- tem nötig, das die taktilen Daten erfassen und ausführen kann. 2.1.1 Haptische Wahrnehmung, Weber-Gesetz Die haptische Wahrnehmung ist ein Oberbegriff und bezieht sich auf die sensorische und motorische Wahrnehmung des menschlichen Tastsinnes. Derzeit gibt es unterschiedliche Ansätze, eine Untergliederung des Begriffs vorzunehmen. Nach der Definition von Kern [2]
10 wird die haptische Wahrnehmung in nozizeptive (schmerzempfindliche), thermosensitive, kinästhetische und taktile Wahrnehmung untergliedert. Die taktile Wahrnehmung bezeichnet die mechanische Interaktion mit der Haut bei Berüh- rung von Oberflächen und externer Krafteinwirkung, wobei insbesondere die Krafteinwir- kung auf die Haut als Messgröße dient [2]. Dagegen umfasst die kinästhetische Wahrnehmung die gefühlte Position und Bewegung der eigenen Gliedmaßen zueinander mithilfe der Muskeln, Gelenken und Sehnen [3]. In verschie- denen Quellen wird darauf hingewiesen, dass sich taktile und kinästhetische Wahrnehmung nicht vollständig voneinander trennen lassen [4, 2]. Kinästhetische Signale umfassen unter anderem Position, Geschwindigkeit, Kraft, Winkel, Winkelgeschwindigkeit und Drehmoment einzelner Gliedmaßen [4, 2]. Bei der haptischen Wahrnehmung sind die Rezeptoren über den gesamten Körper verteilt und unterscheiden sich in ihrem Auflösungsvermögen sowie der Reaktionszeit. Eine bekann- te Grafik, die diesen Zusammenhang darstellt, stammt vom Neurochirurgen Wilder Penfield (vgl. Abb. 2.1). Die Abbildung zeigt schematisch die Position und Größe der Hirnareale, die der Verarbeitung der motorischen Reize zugeordnet werden. Dabei fällt auf, dass die Größe des jeweiligen Areals nicht in Relation zur realen Größe der Körperregion steht, sondern entsprechend ihrer Empfindlichkeit verzerrt dargestellt wird. Somit ist zu erkennen, dass insbesondere motorische als auch sensorische Rezeptoren der Hände einen großen Bereich einnehmen. Aufgrund des unterschiedlichen Auflösungsvermögens ergeben sich daher unter- schiedliche Schwellenwerte für die Wahrnehmung von Reizen einzelner Körperregionen. Bei Schwellenwerten wird zudem unterschieden, ob es sich um die untere absolute Wahrneh- mungsschwelle eines Reizes handelt, oder ob der Schwellenwert die kleinste wahrnehmbare Differenz (engl. Just-Noticeable-Difference (JND)) kennzeichnet. In Kern [2] wird eine Viel- zahl solcher Schwellenwerte in Tabellen zusammengetragen und dient als Anhaltspunkt zur Verwendung in haptischen Systemen und Geräten. Beispielsweise beträgt der Schwellenwert für die kinästhetische Positionsauflösung des Fingergelenks 2, 5∘ , für das Handgelenk 2, 0∘ (vgl. [2, S. 57]). Eng verknüpft mit der JND ist das Weber-Gesetz [4]. Es beschreibt den Zusammenhang zweier Reize bzw. Stimuli wie folgt: − −1 ∣ ∣≥ weber (2.1) −1 Dabei ist die Intensität des aktuellen Stimulus, −1 die des zuletzt übermittelten Sti- mulus und weber der Weber-Quotient bzw. die Weber-Konstante. Der Weber-Quotient gibt an, bei welcher relativen Änderung die menschliche Wahrnehmung einen Unterschied in der Signalstärke wahrnimmt. Es handelt sich um eine Konstante, die spezifisch und verschieden für jedes Organ der Wahrnehmung ist. Das Weber-Gesetz gilt daher nicht nur für den Tast- sinn, sondern beispielsweise auch für die Wahrnehmung von Helligkeitsunterschieden oder Lautstärkedifferenzen [4]. Hierbei ist anzumerken, dass sich an der Schwelle zur absoluten Wahrnehmbarkeit eines Reizes der Weber-Quotient deutlich erhöht und die Angabe der Konstanten meist nur für einen mittleren Intensitätsbereich der Wahrnehmung gilt [2, S. 48].
11 Abbildung 2.1: Sensorischer und motorischer Homunculus nach Wilder Penfield zur Veranschau- lichung der Repräsentation sensorischer bzw. motorischer Areale im Gehirn. Bildquelle: https://www.researchgate.net/figure/Original-illustration- of-the-sensory-homunculus-by-Wilder-Penfield_fig2_253614317 [letzter Zugriff: 27.12.2020] 2.1.2 Teleoperationssysteme Die Entwicklung des Taktile Internets wird von Teleoperations- bzw. Telemanipulationssys- temen motiviert. Diese Systeme dienen der Interaktion zwischen dem Menschen und einem von ihm räumlich getrennten, realen Objekt [2]. Das Teleoperationssystem ist eine Einheit bestehend aus einem Master- und einem Slave-System. Der Nutzer interagiert mithilfe des Master-Systems mit einem virtuellen Abbild des Objektes. Die Interaktion wird auf ein Slave-System übertragen, das wiederum mit dem realen Objekt interagiert. Ein Beispiel für Teleoperationssysteme stammt aus der Telechirurgie, bei der ein Chirurg an einem Modell des Patienten operiert [5]. Seine Bewegungen werden mithilfe komplexer haptischer Ein- und Ausgabegeräte in Form von haptischen Daten aufgezeichnet und an ein räumlich entferntes Ausgabegerät gesendet. Dort werden die Bewegungen am realen Patien- ten ausführt und eine Rückkopplung über die Interaktion in Form von Kräften und Wider- ständen geboten. Dieser Umweg über das Teleoperationssystem stellt die Fähigkeiten des Chirurgen auch an weit entfernten Orten zur Verfügung, deren Erreichen sonst zeitkritisch wäre. Mithilfe des Taktilen Internets sollen solche bislang selten genutzten Möglichkeiten bald zum Alltag gehören. Andere Beispiele finden sich im Katastrophenschutz, der Industrie sowie der Luft- und Raumfahrt wieder. Beispielsweise können Bergungsroboter in gefährliche oder schwer zu- gängliche Gebiete geschickt und dort ferngesteuert werden, ohne den Operator selbst einer Gefahr auszusetzen [1].
12 Teleoperationssysteme bieten zudem die Möglichkeit der Interaktion mit Simulationen, d. h. mit virtuellen Objekten, wodurch sie schon heute zu Trainingszwecken verwendet werden können. Beispiele dafür sind Trainingsszenarien für die Piloten- oder Chirurgenausbildung. Quadrocopter Der Multicopter kann in der ferngesteuerten, unbemannten Ausführung als Teleoperations- system bezeichnet werden. Es handelt sich um ein Luftfahrzeug, das der Funktionsweise des Helikopters nachempfunden ist. Multicopter werden beispielsweise eingesetzt, um Bild- oder Videoaufnahmen aus der Höhe aufzuzeichnen [6]. Andere dienen dem Transport von Waren in schwer zugängliche Gebiete, wie beispielsweise erste Testflüge zum Transport von Medikamenten im Jahr 2014 durch die DHL-Drohne-2.0 auf die Insel Juist zeigen [7, 8]. Die Rotoren des Multicopters liegen auf einer horizontalen Ebene und wirken in senkrechter Weise nach unten, um den Auftrieb zu erzeugen. Je nach verwendeter Anzahl von Roto- ren werden sie auch als Quadrocopter (vier Rotoren), Hexacopter (sechs Rotoren) usw. bezeichnet. In der Luftfahrt wird die Ausrichtung des Quadrocopters im Raum mithilfe der drei Winkel roll (rollen), pitch (nicken) und yaw (gieren) beschrieben. Die zugehörigen Achsen stehen orthogonal zueinander, die x-Achse wird als Längsachse, die y-Achse als Querachse und die z-Achse als Vertikalachse des Luftfahrzeugs bezeichnet, deren Ursprung im Massezen- trum des Quadrocopters liegt (vgl. Abb. 2.2). Die Rotoren eines Quadrocopters können bezüglich der Blickrichtung in ×- oder +-Formation angeordnet sein. Beispielsweise befin- den sich die Rotoren des Quadrocopters in Abbildung 2.2 in ×-Formation. Dabei drehen die beiden gegenüberliegenden Rotoren in die gleich Richtung (z. B. im Uhrzeigersinn), während die anderen beiden Rotoren in entgegengesetzte Richtung drehen. Dadurch wird der Drehmoment ausgeglichen und das Fahrzeug verharrt in einer stabilen Lage. Um die Höhe anzupassen, wird die Drehzahl aller vier Propeller gleichzeitig und in gleicher Weise erhöht oder verringert, bis die gewünschte Höhe erreicht ist. Bei einer ×-Formation bewegt sich die Drohne vorwärts, wenn die Drehzahl der beiden vorderen Propeller verringert, die der hinteren erhöht wird, wodurch sich das Fahrzeug entlang der y-Achse nach vorn neigt (pitch-Winkel). In umgekehrter Weise ist das Rückwärtsfliegen möglich. Um seitwärts nach rechts zu fliegen, auch rollen genannt, wird die Drehzahl der beiden rechten Propeller verrin- gert und die der linken Propeller erhöht, um eine Neigung entlang der x-Achse zu erzeugen. Zuletzt ist eine Drehung um die Vertikalachse möglich, indem zwei gegenüberliegende Ro- toren verlangsamt werden, wodurch sich die Drehmomente nicht mehr aufheben und eine leichte Drehung erzeugen. Es sind auch komplexere Flugmanöver wie Überschläge möglich, deren komplexer Ablauf bereits einprogrammiert wurde und durch einen einzigen Tastendruck als Manöver ausge- führt wird.
13 pitch y yaw roll x z Abbildung 2.2: Quadrocopter mit eingezeichneten Achsen und Lagewinkeln. 2.2 Codecs und Datenkompression Ein Ziel bei der Datenübertragung in Netzwerken ist es, die zur Kommunikation nötige Datenmenge so gering wie möglich zu halten, während die Qualität entsprechend der An- forderungen der Software gesichert sein muss. Die Reduktion der Datenmenge ermöglicht es, dafür mehr Teilnehmer gleichzeitig im Netz zu bedienen. Zur Reduktion der Daten kommen deshalb Codecs zum Einsatz. Ein Codec beschreibt ein Algorithmenpaar zur Encodierung und Decodierung von Daten bzw. Signalen. Bei der Encodierung werden die Daten mittels eines gewählten Codierungs- verfahrens in ein Format überführt, das von Vorteil für die Speicherung oder Übertragung dieser Daten ist. Die Umwandlung der Daten dient der Kompression, welche verlustfrei oder verlustbehaftet erfolgen kann. Nach der Aufbewahrung (Archivierung) oder Übertragung der Daten werden die Daten decodiert, d. h. wieder zurück in ihr ursprüngliches Format überführt. Um eine effiziente Encodierung bzw. Datenkompression vorzunehmen, werden die Eigen- schaften der Daten und des Übertragungsmediums berücksichtigt. Handelt es sich um Audio-, Bild-, oder haptische Daten, können außerdem die physiologischen Eigenschaften der menschlichen Wahrnehmung ausgenutzt werden, um eine noch bessere, verlustbehaftete Kompression zu erzielen, die vom Menschen tolerierbar ist. Dadurch ergeben sich, je nach Datentyp, andere Anforderungen an den Codec. Im nachfolgenden Abschnitt wird zunächst auf die Frequenztransformation, insbesondere die Wavelet-Transformation, für den Anwendungsfall der Datenkompression eingegangen, welche in der Bild- und Audioverarbeitung bereits ein etabliertes Verfahren ist. Anschließend werden die Anforderungen bzw. die ausgenutzten Eigenschaften der menschlichen Wahrneh- mung für Audio-, Bild- und haptische Daten erläutert. Zu jeder Kategorie wird ein Codec vorgestellt. 2.2.1 Wavelet-Transformation Die Daten eines Signals werden oftmals im Bezug zur Zeit (z. B. Audiosignal) oder zum Ort (z. B. Farbwerte der x-y-Koordinaten eines Bildes) gespeichert. Mithilfe einer Frequenz-
14 Abbildung 2.3: Akustisches Signal im Zeitbereich (links) und nach Transformation im Frequenzbe- reich (rechts). Bild in Anlehnung an: https://link.springer.com/chapter/10. 1007/978-3-662-49355-7_7 Abb. 7.14 [letzter Zugriff: 30.12.2020] transformation wird das Signal aus dem Orts- oder Zeitbereich in den Frequenzbereich über- tragen. Zur Veranschaulichung zeigt Abb. 2.3 auf der linken Seite ein akustisches Signal, das im Zeitbereich dargestellt wird. Es handelt sich um einen Dreiklang, eine Überlappung dreier Töne unterschiedlich hoher Frequenzen. Auf der rechten Seite der Abbildung wird das ideale Ergebnis einer Fourier-Transformation dieses Signals vorgestellt, wobei deutlich zu sehen ist, dass die Frequenzen separat voneinander betrachtet werden können, allerdings die Information zur Zeit-Komponente fehlt. Neben der Fourier-Transformation gehört die Wavelet-Transformation zu den verbrei- tetsten Frequenztransformationen. Die Wavelet-Transformation nutzt sogenannte Wavelets, wellenförmig aussehende Basisfunktionen. Die Transformation bildet das Signal vom Orts- bzw. Zeitraum in den Frequenzraum ab, wobei sowohl Informationen über die Frequenzen als auch der Zeitspanne deren Auftretens kodiert werden. Abbildung 2.4 zeigt auf der linken Seite die schematische Darstellung des Auflösungsvermögens durch die Wavelet-Analyse. Zugunsten einer hohen Zeitauflösung des Signals werden niedrige Frequenzen im Signal erkannt, verringert man dagegen die zeitliche Auflösung, können hohe Frequenzen besser abgetastet werden. Die kontinuierliche Wavelet-Transformation lässt sich durch folgende Gleichung beschreiben: +∞ 1 − ( , ) = √ ∫ ( ( )Ψ( )) (2.2) −∞ Die Wavelet-Koeffizienten ( , ) berechnen sich durch die Multiplikation des Signals ( ) mit einem Wavelet Ψ( ). Desto ähnlicher sich Signal und Wavelet sind, desto höhere Werte nehmen die Wavelet-Koeffizienten an. Mithilfe des Parameters lässt sich die Wavelet- Funktion skalieren, wodurch das Wavelet breiter oder schmaler wird und somit das Auf- lösungsvermögen bezüglich der Frequenzen bestimmt. Desto kleiner gewählt wird, des- to schmaler wird das Wavelet (höhere Schwingung) und desto höhere Frequenzen werden abgetastet (vgl. Abb. 2.4). Ein Wavelet kann daher auch als Bandpass-Filter bezeichnet werden. Der Parameter bewirkt die Verschiebung der Wavelet-Funktion entlang des Si- gnals, um die zeitliche Auflösung zu realisieren. Die Grundform einer Wavelet-Funktion wird als Mother-Wavelet Ψ( ) bezeichnet, durch die Skalierung und Verschiebung veränderbare Abbilder Ψ , ( ) der Funktion werden als Child-Wavelets bezeichnet, gehören der gleichen
15 0.15 0.4 0.1 0.3 Skalierungsstufe 1 0.05 0.2 0.1 Ψ1, 0(t) 0 0 hoch -0.05 -0.1 -0.1 -0.2 -0.15 -0.3 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Ψ1/4, 1/4(t) 0.15 0.4 Frequenz 0.1 0.3 Skalierungsstufe 2 0.05 0.2 Ψ1/2, 0(t) 0.1 -0.05 0 0 Ψ1/2, 1/2(t) -0.1 -0.1 -0.2 Ψ1/2, 0(t) -0.15 -0.3 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 0.15 0.4 Ψ1, 0(t) 0.1 0.3 Skalierungsstufe 3 niedrig 0.05 0.2 Ψ1/4, 0(t) t0 Zeit tmax 0 0.1 -0.05 0 Ψ1/4, 1/4(t) -0.1 -0.1 -0.2 Ψ1/4, 2/4(t) -0.15 0 0.2 0.4 0.6 0.8 1 -0.3 0 0.2 0.4 0.6 0.8 1 Ψ1/4, 3/4(t) Haar-Wavelets Symlet2-Wavlets Abbildung 2.4: Links: Wavelet-Analyse, Rechts: Haar-Wavelets und Symlet2-Wavelets der jeweils ersten bis dritten Skalierungsstufe. Wavelet-Familie an und werden durch folgende Gleichung beschrieben: 1 − Ψ , ( ) = √ Ψ( ) (2.3) Es gibt eine große Vielfalt von Wavelet-Familien, beispielsweise Haar-Wavelets, Daubechies- Wavelets, Morlet-Wavelets und mehr. Abbildung 2.4 zeigt in der mittleren und rechten Spalte zwei dieser Waveletfamilien bis zur jeweils dritten Skalierungsstufe. Die schraffiert unterlegten Abschnitte auf der linken Seite der Abbildung sind ausgewählte Beispiele und zeigen die Frequenz- und Zeitauflösung, die mit der skalierten und verschobenen Wavelet- Funktion im rechten Bildteil korrespondiert. Um das Signal umfassend zu analysieren, wird die Wavelet-Transformation systematisch auf mehreren Ebenen ihres Auflösungsvermögens angewandt, dieses Verfahren nennt sich Multiskalenanalyse (engl. Multiresolution Analysis). Da das zu analysierende Signal meist aus einer Abtastung diskreter Werte besteht und auch die Wavelet-Transformation in dis- kreter Form eine schnellere Berechnung ermöglicht, wird zur Signalanalyse die Diskre- te Wavelet-Transformation (DWT) verwendet. Eine besonders effiziente Berechnung der Wavelet-Koeffizienten wird durch die Fast Wavelet-Transformation (FWT) realisiert, eine Sonderform der DWT. Die FWT berechnet die Wavelet-Koeffizienten, indem das Signal in mehreren Iterationen eine Filterbank durchläuft [9, 10]. Die Filterbank besteht je Iteration aus einem Hoch- und einem Tiefpassfilter, wobei die Filter durch Wavelets beschrieben werden, die das Signal zu gleichen Teilen in eine Approximation und Details zerlegen. Abbildung 2.5 veranschau- licht die stufenweise Zerlegung, die mit einer Reduktion der Koeffizienten einhergeht: Der Hochpassfilter (HPF) erzeugt die Wavelet-Koeffizienten 1 , die hohe Frequenzanteile und somit Details des Signals beschreiben. Der Tiefpassfilter (TPF) dagegen erzeugt Wavelet- Koeffizienten, die niedrige Frequenzanteile und somit eine Approximation 1 des Signals
16 repräsentieren. Diese Approximation wird iterativ erneut in Detail- und Approximations- Koeffizienten zerlegt, wobei sich die Anzahl der Koeffizienten stets halbiert. Mithilfe der Inversen Fast Wavelet-Transformation (IFWT) kann das Signal vollständig wiederherge- stellt werden, wenn die Approximations-Koeffizienten der tiefsten Interationsebene sowie alle Detail-Koeffizienten zur Verfügung stehen (vgl. Abb. 2.5, Iterationsebene 3). Die Zerlegung hat den Vorteil, dass auf unterschiedlichen Iterationsebenen verschiedene Frequenzbereiche extrahiert wurden und dort abhängig von ihrem zeitlichen Auftreten ana- lysiert werden können. Um Daten zu komprimieren, wird meist eine Quantisierung der Koeffizienten durchgeführt, d. h. die Koeffizienten werden diskretisiert und Koeffizienten, die einen Schwellenwert un- terschreiten, werden verworfen. Abbildung 2.5: Zerlegung des Signals 0 mithilfe der FWT (abwärts) und Rekonstruktion des Signals mithilfe der Inversen FWT (IFWT). Parameter der Fast Wavelet-Transformation Die FWT wird als Funktion beispielsweise in GNU Octave1 wie folgt definiert: = ( , Ψ, , ) (2.4) Dabei bezeichnet die Wavelet-Koeffizienten nach der Transformation, die Inputdaten, Ψ das Mother-Wavelet, die Anzahl der Iterationen und die Randbehandlung. Die Wahl des Mother-Wavelet Ψ hat Einfluss auf die Eigenschaften, die mithilfe der iterati- ven Zerlegung vom Signal extrahiert werden. Für Eigenschaften, die räumlich bzw. zeitlich sehr nah beieinander liegen, werden Wavelets mit wenigen vanishing moments empfohlen. Vanishing moments stehen im Zusammenhang damit, wie stark das Wavelet oszilliert. Desto höher die Anzahl der vanishing moments, desto stärker die Oszillation. Ein stark oszillie- rendes Wavelet benötigt mehr ’Platz’ und ist demzufolge besser für längere Signale geeignet bzw. zum Detektieren von Eigenschaften, die nicht allzu nah beieinander liegen. Desto weni- ger vanishing moments, desto glatter sind die Wavelets und daher zur Rauschunterdrückung geeignet [11]. Auch die Ähnlichkeit zwischen Signal und Mother-Wavelet dient bei der Wahl 1 freie Programmiersprache unter GNU General Public License https://www.gnu.org/software/octave/
17 als Anhaltspunkt, da bei einer besonders hohen Einstimmung höhere Wavelet-Koeffizienten resultieren, erzielen aber nicht in jedem Fall die beste Güte bei der Kompression [12]. Zum Entfernen von Rauschen werden orthogonale Wavelets empfohlen [11]. Die Iterationstiefe steht im direkten Zusammenhang mit der Anzahl der Daten , da sich durch jeden Iterationsschritt die Anzahl der Koeffizienten halbiert. Daher sollte die Gleichung ≥ 2 erfüllen. Mit jedem Iterationsschritt werden hohe Frequenzanteile von niedrigen Frequenzanteilen getrennt. Sollen Signaleigenschaften untersucht oder kompri- miert werden, die sich in niedrigeren Frequenzbereichen befinden, sollte die Iterationstiefe erhöht werden, um die Signalanteile von anderen Frequenzbereichen zu trennen. Insbeson- dere im Bezug auf die menschliche Wahrnehmung sind hohe Frequenzanteile entbehrlich und können verworfen werden. Besonders hohe Frequenzanteile befinden sich auf niedrigen Iterationsstufen, beispielsweise die Detailkoeffizienten 1 in Abbildung 2.5, wodurch bereits die Hälfte der Daten eingespart werden kann. Die Effizienz der Filterbanken liegt in der Annahme, dass es sich bei der Anzahl der Input- daten um eine Zweierpotenz mit dem Zusammenhang = 2 handelt. Ist dies nicht der Fall, müssen für die Berechnung die fehlenden Daten sinnvoll ergänzt werden, bei der Rück- transformation erhält das Signal jedoch wieder seine ursprüngliche Länge. Diese Ergänzung wird mithilfe des (Extension) Parameter festgelegt. Die Erweiterung hat Einfluss auf die Qualität an den Rändern der Approximation des Signals. Die häufigsten Erweiterungen umfassen das Zero-Padding, die Periodische, oder die Symmetrische Fortsetzung mit ver- schiedenen Stufen der Kontinuität des Signals am Randübergang. Beim Zero-Padding (engl. äuffüllen”) werden die fehlenden Daten durch Nullen ergänzt. Für die periodische Fortset- zung wird nach dem letzten Datenpunkt das vorliegende Signal vom ersten Datenpunkt an wiederholt. Bei der symmetrischen Fortsetzung wird das Signal am oder nach dem letzten Datenpunkt gespiegelt wiederverwendet. 2.2.2 Audio-Codecs Bei der Übertragung von Audiodaten handelt es sich vorrangig um Daten, die für den Menschen hörbare Frequenzen (Tonhöhe) zwischen 20 Hz und 20 kHz repräsentieren. Die Frequenz gibt die Schwingung der Schallwellen pro Sekunde an. Desto höher die Frequenz, desto höher ist der Ton. Audio-Codecs nutzen oftmals das zu erwartende Frequenzspektrum aus. Während bei Musik das volle Frequenzspektrum des menschlichen Hörens zu erwarten ist, werden bei der Übertragung von Sprache nur Frequenzen zwischen 300 Hz und 5 kHz benötigt. Neben der Tonhöhe wird auch die Tonlautstärke, der Ausschlag der Amplitude, berück- sichtigt. Bei Audio-Daten treten Masking-Effekte auf, das heißt, dass benachbarte Töne aufgrund ihres geringen zeitlichen Abstands und ihrer unterschiedlichen Lautstärke einan- der überdecken bzw. übertönen können. Zur Verarbeitung von Audiosignalen werden sowohl die Diskrete Cosinus-Transformation (DCT) als auch die DWT genutzt, wobei jedoch keine allgemeingültige Aussage getroffen werden kann, welche der Frequenztransformationen qualitativ höhere Ergebnisse erzielt.
18 OPUS-Codec Der OPUS-Codec wird zur verlustbehafteten Kompression von Audiodaten verwendet, die in Echtzeit übertragen werden sollen. Dabei zeichnet sich der Codec durch eine geringe La- tenz Dank geringerem Rechenaufwand und hoher Güte gegenüber anderen Audio-Encodern wie beispielsweise MP3 aus [13]. Der Opus-Codec steht unter BSD-Lizenz zur freien Verbrei- tung und Modifikation zur Verfügung, wodurch er 2012 auch zum Internetstandard RFC 6716 [14] erhoben wurde. Opus vereint die Audio-Codecs Silk und Celt, die sich ebenfalls durch geringe Latenzen auszeichnen. Silk [15] wurde für das Chatprogramm Skype entwi- ckelt, um Sprache effizient für Internettelefonie und Videoanrufe zu codieren. Der Codec nutzt Linear Predictive Coding, eine vorausschauende Berechnung der Sprachdaten mithilfe eines vereinfachten Modells der menschlichen Stimme. Der Audio-Codec Celt [16] ist nicht nur auf die menschliche Stimme, sondern auf das gesamte Spektrum des menschlichen Hö- rens ausgelegt und nutzt das Verfahren der Modifizierten Diskreten Cosinus-Transformation (MDCT), um die Daten zu quantifizieren und anschließend zu komprimieren. Dadurch ist er auch für die hohe qualitative Übertragung von Musik geeignet. Der Opus-Codec zeichnet sich unter anderem durch folgende Spezifikationen aus [13]: • konstante und variable Bitraten von 6 kbit/s bis 510 kbit/s • Abtastrate von 8 kHz bis 48 kHz • Frame-Größe von 2,5 ms bis 60 ms Die Spezifikationen sind wie folgt zu deuten: Der Opus-Codec bietet die Möglichkeit, eine konstante Einsparung der Daten festzulegen, indem die Bitrate, sprich die Anzahl der zu übertragenden Daten pro Sekunde, festgelegt wird. Die Abtastrate gibt an, in welchem Fre- quenzspektrum Daten erfasst und verarbeitet werden können und entsprechen hierbei dem Spektrum, das bei Sprache (narrowband) bis hin zu Musik (fullband) entsteht. Die Frame- Größe kann sich adaptiv verhalten, aber auch auf einen Wert festgelegt werden. Letztere Option bietet die Möglichkeit, eine konstante Latenz einzuplanen, die für die Datenüber- tragung hinnehmbar ist. 2.2.3 Bildkompression In der Bildverarbeitung liegen digitale Bilder in Form eines 2D-Signals vor, das die Pixelwer- te in Abhängigkeit von X-Y-Koordinaten einer Bildebene enthält. Dagegen ist das Signal, das die Augen erreicht, eine Überlappung mehrerer Lichtwellen, bestehend aus Frequenzen, Amplituden und Phasen, die erst durch mehrere Verarbeitungsschritte vom Sehapparat und Gehirn wahrgenommen werden können. Da die Wahrnehmung der Bildinformation über Lichtwellen stattfindet, werden zur Bildkompression psychovisuelle Modelle herangezogen, die sich oftmals auf die Repräsentation des Signals in Form von Frequenzkomponenten beziehen, wodurch auch in der Bildverarbeitung Frequenztransformationen wichtige Werk- zeuge sind. Es gibt verschiedene psychovisuelle Modelle, die bei der Bildverarbeitung und -kompression zutragen kommen. Sie geben Aufschluss darüber, welche Informationsbestandteile von hö- herer oder geringerer Bedeutung für die Wahrnehmung sind. Eine Möglichkeit zur Daten- reduktion besteht darin, die weniger bedeutsamen Bestandteile wegzulassen. Beispielsweise
19 ist bekannt, dass das menschliche Auge mehr Rezeptoren zur Wahrnehmung von Helligkeit gegenüber der Farbwahrnehmung besitzt. Auch kann das Auge mehr Grün- und Rottöne im Vergleich zu Blautönen unterscheiden. Des Weiteren ist das menschliche Auge hohen Frequenzen gegenüber unempfindlicher, umgekehrt heißt dies, dass die Bildinformation vor allem den niedrigen und mittleren Frequenzen entnommen wird. Bildlich gesprochen stellen niedrige und mittlere Frequenzen im Ortsraum Flächen und langsame Farb- bzw. Hellig- keitsverläufe dar. Hohe Frequenzen dagegen sind Bilddetails, die Unterschiede zwischen eng beieinander liegenden Pixeln. Die Unempfindlichkeit des Auges gegenüber hohen Frequen- zen zeigt sich insbesondere beim Betrachten von verrauschten Bildern, deren Inhalt trotz des hochfrequenten Störsignals hinreichend vom Betrachter erfasst werden kann. Mithilfe der Frequenztransformation ist es möglich, die sich überlappenden Frequenzen voneinander zu trennen und isoliert zu betrachten. JPEG Standard Das standardisierte Kompressionsverfahren JPEG2 nutzt die DCT, eine Sonderform der Diskrete Fourier-Transformation (DFT), um Bildsignale umzuwandeln und zu komprimie- ren. Zuvor werden bei Farbbildern die Farbräume des Bildes voneinander getrennt und separat behandelt. Da Helligkeiten gegenüber Farbtönen besser wahrgenommen werden, können durch diese Trennung bereits 50 % der Daten ohne sichtbaren Unterschied für den Nutzer eingespart werden [17, S.346]. Im zweiten Schritt wird das Bild in 8 × 8 Pixel große Blöcke eingeteilt, die separat mithilfe der DCT transformiert werden. Daraus resultieren 64 Fourier-Koeffizienten, welche die Bildinformation in Form von unterschiedlichen Frequenzen repräsentieren. Desto größer der Betrag des Koeffizienten, desto häufiger wurde die Fre- quenz im Bild detektiert. Natürliche Bilder enthalten mehr Flächen (niedrige Frequenzen) als Details (hohe Frequenzen), daher sind die Koeffizienten der niedrigen Frequenzanteile größer und nehmen in Richtung der hohen Frequenzen ab. Zur Kompression der Daten nutzt man die Eigenschaften aus, dass das menschliche Auge gegenüber hohen Frequenzen unempfindlicher ist. Dazu wird bei der Quantisierung eine systematische Abschwächung der Koeffizienten mit zunehmender Frequenz durchgeführt. Anschließend werden sehr niedrige Koeffizienten, die einen Schwellenwert unterschreiten, auf Null abgerundet. Zuletzt werden die Koeffizienten durch verlustfreie Kompressionsverfahren wie Runlength-Encoding und Huffman-Codierung noch stärker komprimiert. Im Gegensatz zur Wavelet-Transformation nutzt die DCT cosinus-förmige Basisfunktionen, welche weniger geeignet sind, die Frequenzinformation in Abhängigkeit vom Ort zu kodie- ren. Diese Eigenschaft trägt nach der Kompression zu deutlich sichtbaren Bildartefakten bei. Diese Bildfehler betreffen zumeist Unstetigkeiten an den Übergängen benachbarter Bildblö- cke und die schlechte Wiedergabe von Kanten. Aufgrund der Nachteile der Kompression mittels DCT wird im JPEG 20003 Standard die Nutzung der DWT empfohlen. 2 Joint Photographic Expert Group, siehe https://jpeg.org 3 https://jpeg.org/jpeg2000/index.html
20 2.2.4 Haptische Codecs Haptische Codecs sind für das Taktile Internet von besonderem Interesse, da sie die effi- ziente Übertragung haptischer Daten zwischen Komponenten eines Teleoperationssystems ermöglichen sollen. Steinbach et al. [4] stellen haptische Codecs für das Taktile Inter- net vor und unterscheiden dabei zwischen Codecs, die taktile Daten oder kinästhetische Daten komprimieren. Zur Kompression taktiler Daten ist eine aufwendige Aufnahme und Analyse der Interaktion mit dem Material nötig. Die Daten liegen als wellenförmige (engl. waveform-based) oder parametrische Repräsentation vor, auf welche die Anwendung unter- schiedlicher Codecs möglich ist. Zur Codierung gibt es die Möglichkeit, die aufgezeichneten Daten in einer Datenbank zu hinterlegen und zur Decodierung aus dieser abzurufen, statt die Daten vollständig zu übertragen. Bei unbekannten Materialien kann auf Ergebnisse der Datenbanken zurückgegriffen werden, welche dem Material am ähnlichsten sind, um deren Decodierung zu nutzen. Als weitere Möglichkeit zur Kompression wird die Entleh- nung von Audio-Codecs vorgeschlagen, da taktile Signale in wellenförmiger Repräsentation Ähnlichkeiten zu Audiosignalen aufweisen [18]. Für kinästhetische Codecs definiert das Projekt IEEE P1918.1.1 “Haptic Codecs for Tactile Internet“ die Anforderungen wie folgt [4]: • Anpassungsfähigkeit an die Paketrate des Übertragungskanals • Minimale Verzögerung durch den Codierungsalgorithmus • Kontrollschema (Anpassungsfähigkeit an Verzögerungen) • Fähigkeit zur Anwendung in Echtzeit Weber-Codec Als Beispiel für einen kinästhetischen Codec wird nachfolgend die Kompression mittels Perceptual Deadband vorgestellt, da sich diese als simpler, aber effektiver Codec erwiesen hat [4]. Da die Kompression mithilfe des Weber-Gesetzes (vgl. Abschnitt 2.1.1) erzielt wird, wird der Codec zur besseren Lesbarkeit in der vorliegenden Masterarbeit als “Weber-Codec“ bezeichnet. Das Weber-Gesetz gibt eine Konstante weber an, die beschreibt, wie groß der Unterschied zwischen zwei Signalintensitäten sein muss, damit die Veränderung vom Menschen wahrge- nommen werden kann. Der Begriff Perceptual Deadband beschreibt den gegenteiligen Fall: Eine Stimulusänderung, die weber unterschreitet, kann nicht wahrgenommen werden. Um kinästhetische Daten zu komprimieren, wird die Weber-Konstante als Schwellenwert genutzt [4]. Zur Codierung werden nur jene Daten übertragen, die die Schwelle im Bezug auf den zu- letzt gesendeten Wert überschreiten bzw. unterschreiten. Abbildung (2.6) zeigt ein solches Signal, wobei die schwarzen Punkte die übertragenen Daten, und die grauen Balken den Bereich des Perceptual Deadband anzeigen, innerhalb dessen die Daten verworfen werden können. Seitens der Decodierung werden die fehlenden Werte solange durch den alten Wert ersetzt, bis ein neuer empfangen wird. Eine andere Variante des Weber-Codecs, genannt Perceptual Deadband with signal-based predictive coding, sieht nicht Wiederverwendung des zuletzt gesendeten Wertes, sondern eine Extrapolation des bisher empfangenen Signals vor [19].
21 Abbildung 2.6: Veranschaulichende Darstellung des Perceptual Deadbands. Der relative Schwellen- wert ist abhängig von der Signalintensität . Signale, die den Schwellenwert weber unterschreiten, können nicht wahrgenommen und verworfen werden. (Bildquelle: [4, S. 8]) Die Ergebnisse von Steinbach et al. [4] zeigen, dass die durchschnittliche Übertragungs- rate der Datenpakete mithilfe des Weber-Codecs um 80-90 % reduziert wird. Anhand der Ergebnisse aus Steinbach et al. [4] lassen sich konkrete Werte für den Parameter weber ablesen, um die Einsparung von 80-90 % zu erhalten: Für die kinästhetische Messgröße Kraft liegt weber zwischen 0,02 und 0,05, für die kinästhetische Messgröße Geschwindigkeit zwischen 0,15 und 0,3. 2.3 Evaluation haptischer Codecs Um eine Evaluation vornehmen zu können, müssen Metriken festgelegt werden, mit denen die Güte eines haptischen Codecs bewertet werden kann. Steinbach et al. [4] führt für den kinästhetischen Weber-Codec eine Machbarkeitsstu- die durch, um eine Aussage darüber zu treffen, ob der Codec als Standard für haptische Codecs geeignet ist. Dazu werden unter anderem die Übertragungsrate, der Root Mean Squared Error (RMSE) und der Perceptual Mean Squared Error (PMSE) genutzt, um die Übertragung originaler und Weber-codierter Daten zu vergleichen. Bei diesen drei Quali- tätsmaßen handelt es sich um Maße, die durch Berechnungen ermittelt werden und somit nutzerunabhängig sind. 2.3.1 Kompressionsrate Die Kompressionsrate k ist ein quantitatives Maß, um das Verhältnis der Datenmengen kompr einer unkomprimierten und einer äquivalenten, komprimierten Datei unkompr aus- zudrücken. Sie gibt an, durch welchen Wert die unkomprimierte Datei geteilt werden muss, um die Datenmenge der komprimierten zu errechnen. unkompr k = (2.5) kompr Eine Kompressionsrate von 10 gibt beispielsweise an, dass eine Datei der Größe 200 Bytes auf eine Größe von 20 Bytes komprimiert wird (200 Bytes / 10 = 20 Bytes). Im direkten Zusammenhang mit der Kompressionsrate steht der Kompressionsfaktor. Dieser Wert gibt an, mit welcher Zahl die unkomprimierte Datengröße multipliziert wird, um die
22 komprimierte Datengröße zu errechnen. kompr k = (2.6) unkompr Ein Kompressionsfaktor k von 10 % bzw. 0,1 komprimiert eine Datei von 200 Bytes auf eine Größe von 20 Bytes (200 Bytes * 0,1 = 20 Bytes). Um die Einsparung der Datenmenge stär- ker hervorzuheben, wird oftmals auch angegeben, um welchen Prozentsatz die Datenmenge reduziert wird, wobei man den Differenzbetrag 1 − k in Prozent angibt. Beispielsweise wird bei einem Kompressionsfaktor von 10 % die Datenmenge um 90 % reduziert. 2.3.2 MSE - Mean Squared Error Der Mean Squared Error (MSE) ist ein Qualitätsmaß der Statistik und bewertet eine Schätz- funktion hinsichtlich ihrer Varianz (zufälliger Fehler) und ihrer Verzerrung (systematischer Fehler) [20]. Diese Metrik beschreibt den relativen Fehler und wird wie folgt berechnet: ( ̂ − )2 MSE = ∑ (2.7) =1 Dabei sind ̂ die geschätzten Werte und die beobachteten Werte, ist die Anzahl der Beobachtungen. Beim Vergleich der MSE zweier Schätzfunktionen wird der Schätzer mit dem kleineren MSE als besser eingeschätzt. 2.3.3 RMSE - Root Mean Squared Error Der RMSE ist aus der Statistik als Standardabweichung bekannt. Er gibt an, wie stark geschätzte Werte von den beobachteten Werten abweichen, wobei diese Abweichung als absoluter Wert angegeben wird [21]. Dieser Fehlerwert wird wie folgt berechnet: √ √ ( ̂ − )2 RMSE = √∑ (2.8) ⎷ =1 Dabei sind ̂ die geschätzten Werte und die beobachteten Werte, ist die Anzahl der Beobachtungen. Beim Vergleich der RMSE zweier Schätzfunktionen wird der Schätzer mit dem kleineren RMSE als besser eingeschätzt. 2.3.4 PMSE - Perceptual Mean Squared Error Der PMSE wird von Chaudhari et al. [22] vorgestellt und ist dem MSE nachempfun- den, wichtet die Abweichung zwischen geschätzten und beobachteten Werte aber entspre- chend der menschlichen Wahrnehmung. Hergeleitet wird der PMSE unter Zuhilfenahme
23 des Weber-Fechner-Gesetzes, das den Zusammenhang zwischen dem technisch gemessenem Signal und dem wahrgenommenen Sinneseindruck beschreibt: = ⋅ ( ) (2.9) 0 Dabei bezeichnet den Sinneseindruck in der Domäne der Wahrnehmung. Die Variable ist eine experimentell ermittelte Skalierungskonstante, ist die technisch gemessene Stärke des Stimulus und 0 der Schwellenwert, unter welchem der Stimulus nicht mehr wahrgenommen werden kann. Bei einer Beobachtung von Datenpunkten über die Zeit beschreibt der PMSE den Fehler in der Domäne der Wahrnehmung wie folgt [22, S. 542]: 1 ̂ 2 PMSE = ⋅ ∑( ( ) − ( )) =1 2 (2.10) 2 = ⋅ ∑( ( )) =1 ̂ Entsprechend repräsentieren und ̂ die technisch gemessene Stärke des beobachteten ̂ Signals ( ) und des geschätzten Signals ( ), welches durch Anwendung eines Codecs entstanden ist. 2.4 Verwandte Arbeiten Der Artikel von Steinbach et al. [4] gibt eine Übersicht über den Stand der Technik von haptischen Codecs. Dazu werden die wichtigsten haptischen Aspekte vorgestellt, die für die Entwicklung wahrnehmungsbasierter Modelle herangezogen werden, welche in den hap- tischen Codecs mit einfließen. Des Weiteren werden Metriken zur qualitativen Evaluation der haptischen Codecs zusammengetragen. Zusäzlich wird ein kinästhetischer Codec mittels Perceptual Deadband (vgl. Abschnitt 2.2.4) vorgestellt, der zum Standard für kinästhetische Codecs gemacht werden soll. Die Evaluation des kinästhetischen Codecs zeigen eine starke Datenreduktion und Eignung zum Standard. Die Arbeit von Xu et al. [23] gibt eine Übersicht über Model-Mediated Teleoperation. Der Ansatz dient insbesondere der Aufrechterhaltung einer stabilen Interaktion zwischen Master- und Slave-System, auch wenn starke Verzögerungen in der Datenübertragung auf- treten. Um ein kontinuierliches haptisches Feedback trotz verzögerter Übertragung zu er- halten, wird lokal die Interaktion mit einem Modell des Interaktionsobjektes approximiert. Sobald die Feedbackdaten vom Slave-System eintreffen, wird das Modell entsprechend ak- tualisiert. Bei MMT-Systemen gibt es verschiedene Ansätze, um lokal Feedback zu erzeugen und die Daten mit dem Slave-System auszutauschen. Das Paper gibt eine Übersicht über die Herausforderungen für MMT-Systeme, welche Techniken zum Erzeugen und Austausch des Feedbacks bereits etabliert sind, und präsentiert Resultate aus verschiedenen Experimen- ten. Solche Modelle sind eher ungeeignet für unbekannte Umgebungen oder Interaktionen, da sie eher für simple Interaktionen gedacht sind.
24 Der Beitrag von Tanaka u. Ohnishi [24] stellt eine Kompression haptischer Daten für die Speicherung mittels DCT vor. Zur Überprüfung wird eine Fallstudie mit einem Teleope- rationssystem durchgeführt, das die Bewegung des Master-Systems aufzeichnet, um diese später wieder auf einem Teleoperationssystem auszuführen. Mithilfe des vorgestellten Co- decs wurden die Daten auf mindestens ein Viertel ihrer ursprünglichen Größe komprimiert, wobei die Abweichungen der decodierten Daten gering blieb. Der Codec soll in zukünfti- gen Arbeiten auch für Echtzeitanwendungen angepasst werden und ein haptisches Modell entwickelt werden, das in den Algorithmus mit einfließt. Die Arbeit von Noll et al. [25] stellt einen vibrotaktilen Codecs (für Texturen, Oberflä- chen) mittels Wavelet-Transformation vor. Der Codec nutzt die DWT, wahrnehmungsba- sierte Modelle für taktile Daten, Quantisierung und verlustfreie Kompression aus, um eine hohe Kompression zu erzielen. Die Ergebnisse zeigen eine Kompression um 10 %, wobei für die meisten Signale keine Beeinträchtigung in der taktilen Wahrnehmung verzeichnet wurde. Der Artikel von Srinivasan et al. [26] stellt eine Audiokompression durch Adaptive Wa- velet Packet Decomposition vor, die auf eine hohe Audioqualität abzielt. Zur Kompres- sion wird ein psychoakustisches Modell herangezogen, das auf verschiedenen Ebenen des Wavelet-Filters angewandt wird. Dank hoher Anpassungsfähigkeiten an verfügbare Ressour- cen wie Paketrate oder Rechenleistung wird in der Evaluation das Verfahren als geeignet für die Übertragung im Internet und zur Speicherung der Daten eingestuft. Die Arbeit von Xia et al. [27] stellt eine Methode vor, die Wavelet-Transformation zur Rauschunterdrückung in Echtzeit zu nutzen. Dazu wird die Wavelet-Transformation auf ein Moving Window angepasst, das nur einen Teil des Signals berücksichtigt und mithilfe des- sen ein aktueller Datenpunkt geglättet wird. Die Evaluation bezieht sich auf ein künstlich erzeugtes Signal, dessen idealer Verlauf bekannt ist und anhand dessen die Leistung der Rauschunterdrückung evaluiert werden kann. Die Evaluation umfasst verschiedene Para- meteruntersuchungen und zeigt eine Eignung der vorgestellten Methode für Echtzeitanwen- dungen auf.
KAPITEL 3 Konzept Die Datenübertragung für haptische Interaktionen über das Netzwerk gewinnt durch das Taktile Internet immer mehr an Bedeutung. Es werden effiziente Methoden gebraucht, um die große Menge an haptischen Daten zu übertragen. Der Standard IEEE P1918.1.1 definiert haptische Codecs für das Taktile Internet. Diese Codecs werden in kinästhetische und haptische Codecs unterteilt. Derzeit befindet sich der kinästhetische Codec mittels Perceptual Deadband im Standardisierungsprozess, da er eine effiziente Übertragung ermöglicht und den Anforderungen an kinästhetische Codecs gerecht wird, die ebenfalls durch den Standard IEEE P1918.1.1 erarbeitet wurden. Zur Codierung taktiler Daten existieren Ansätze, welche Frequenztransformationen zur effi- zienten Kompression einsetzen. Frequenztransformationen sind ein beliebtes Werkzeug der Signalverarbeitung, da sie eine wahrnehmungsbasierte Kompression ermöglichen und mit ihnen hohe Kompressionsraten bei guter bis sehr guter Qualität erzielt werden können. Im Bereich der Bildverarbeitung sind sowohl die DCT als auch die DWT in den Standards JPEG und JPEG 2000 enthalten. Die Eignung der DCT für taktile Daten, die für ein Moti- on Copy System gespeichert werden, wurde von Tanaka u. Ohnishi [24] nachgewiesen. Ein Beitrag von Noll et al. [25] zeigt die Eignung der DWT für die Codierung vibrotaktiler Daten. Bislang wurde nicht untersucht, ob sich die Wavelet-Transformation auch für die effiziente Übertragung kinästhetischer Daten eignet. Nachfolgend wird deshalb ein Konzept für einen kinästhetischen Codec erarbeitet, der auf Wavelets basiert. Die Wavelet-Transformation eignet sich, um ein Signal in seine Zeit- und Frequenzbestand- teile zu zerlegen und diese separat voneinander zu verarbeiten. Betrachtet man den kin- ästhetischen Codec mittels Perceptual Deadband (Weber-Codec), ist zu erkennen, dass zu geringe Änderungen in den Daten verworfen werden. Dadurch entsteht ein Signal mit einem geglätteten Verlauf. In der Bildverarbeitung bedeuten glatte Flächen bzw. Kurven im Ortsraum nach der Trans- formation niedrige Frequenzen im Frequenzraum. Um eine Glättung des Bildsignals im Fre- quenzraum vorzunehmen, besteht die Möglichkeit, einen Tiefpassfilter auf die Koeffizienten der Transformation anzuwenden. Der Tiefpassfilter lässt niedrige Frequenzen passieren, ho- he Frequenzen werden verworfen. Durch das Verwerfen der Koeffizienten hoher Frequenzen
26 werden Daten eingespart. Im Gegenzug werden im Bild die Rauschanteile, aber auch Kanten (Bilddetails) abgeschwächt. Die Analogie zeigt, dass ähnlich zur visuellen Wahrnehmung, die gegenüber hohen Frequen- zen unempfindlicher ist, auch die hohen Frequenzanteile im haptischen Signal verworfen werden können, solange sich diese unter der haptischen Wahrnehmungsschwelle befinden, die durch den Weber-Quotienten beschrieben werden. Die FWT nutzt in jedem Iterationsschritt ein Filterpaar bestehend aus Hoch- und Tief- passfilter, welches das Signal zu gleichen Teilen in Approximations- und Detailkoeffizienten zerlegt. Wenn die Detailkoeffizienten für Änderungen im Signal stehen, die den Weber- Quotienten unterschreiten, können die Koeffizienten ohne Nachteil für die haptische Wahr- nehmung verworfen werden. Da die Detailkoeffizienten bereits im ersten Iterationsschritt die Hälfte der Datenmenge ausmachen, kann so eine Einsparung von mindestens 50 % erzielt werden. Liegen auch die Detailkoeffizienten der zweiten Iterationsstufe unter der Wahrnehmungsschwelle, könnten bereits 75 % der Daten eingespart werden. Die wahrnehmungsbasierte Kompression ist hilfreich für die Übertragung von haptischen Daten, die innerhalb des Teleoperationssystems vom Slave-System an das Master-System gesendet werden, wie es beispielsweise bei einer Rückkopplung (Feedback) nötig ist. Im um- gekehrten Fall, der Datenübertragung vom Master-System an das Slave-System, führt die Glättung der Daten durch den Ansatz des Weber-Codecs zu sprunghaften Übergängen, die beispielsweise bei der Ausübung von Kräften oder Bewegungen zu ruckartigem Verhalten führen, das seitens des Slave-Systems feiner aufgelöst werden kann. Beim Perceptual Dead- band gibt es daher den Ansatz, die Decodierung um eine Extrapolation der zuletzt erhalte- nen Datenwerte zu erweitern, wodurch der Signalverlauf besser geschätzt wird und zudem weitere Einsparungen in der Datenübertragung ermöglicht werden. Mithilfe der Wavelet- Transformation wird dagegen eine Approximation des Signals übertragen, die bei der Deco- dierung (Rücktransformation) sanftere Übergänge zwischen den Datenpunkten erzeugt. Ein weiterer positiver Effekt ist das Filtern kleinster, ungewollter Bewegungen (ähnlich einem Rauschen oder Zittern), die bei einem naiven Ansatz des Weber-Codecs insbesondere im Bereich nahe der absoluten Wahrnehmungsschwelle übertragen werden würden. Ein wesentlicher Nachteil der Wavelet-Transformation besteht darin, dass eine größere Men- ge Daten benötigt wird, um die Transformation darauf anwenden zu können. Um die Wavelet-Transformation für Echtzeitanwendungen nutzbar zu machen, kann ein Ansatz verwendet werden, der die Rauschunterdrückung mit Wavelets in Echtzeit beschreibt [27], wobei die DWT nur auf eine Teilmenge der Daten angewendet wird. Dazu muss der zeitli- che Abschnitt, d. h. die Fensterbreite der Daten, ausreichend klein gewählt werden, sodass bei konstanter Samplerate die Verzögerung unterhalb der Wahrnehmungsschwelle liegt. Die Wavelet-Transformation hat die Eigenschaft, bei geringer zeitlicher Auflösung hohe Fre- quenzen abtasten zu können (vgl. Kapitel 2.2.1, Abb. 2.4). Daher ist es trotz einer geringen zeitlichen Auflösung möglich, den hochfrequenten Anteil der kinästhetischen Daten zu fil- tern, die bezüglich der menschlichen Wahrnehmung verlustfrei verworfen werden können. Bei einer größeren Fensterbreite ist anzunehmen, dass eine größere Iterationstiefe zum Fil- tern des Signals und damit das Verwerfen einer größeren Datenmenge möglich ist.
Sie können auch lesen