Erzeugung von synthetischen Seitensichtsonar-Bildern mittels Generative Adversarial Networks - ELIB-DLR

Die Seite wird erstellt Hendrik Rausch

Wissenschaft

Deutsch

Like
Teilen
Einbetten
Vollbild
Folien
HTML Herunterladen
PDF Herunterladen
Missbrauch

←

WEITER LESEN

→

Transkription von Seiteninhalten

Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten

Erzeugung von synthetischen Seitensichtsonar-Bildern mittels Generative Adversarial Networks - ELIB-DLR

Synthetische Trainingsdaten

Erzeugung von synthetischen
Seitensichtsonar-Bildern mittels
Generative Adversarial Networks
Ein Beitrag von YANNIK STEINIGER, JANNIS STOPPE, DIETER KRAUS und TOBIAS MEISEN

Für die Anwendung von Deep-Learning-Methoden zur automatischen Auswertung
von Daten bildgebender Sonare stellt die nicht vorhandene Verfügbarkeit größerer
Trainingsdatenmengen nach wie vor ein Problem dar. In den letzten Jahren wurden
jedoch sogenannte Generative Adversarial Networks (GAN) als ein Werkzeug aus dem
Bereich Deep Learning für die Erzeugung synthetischer Daten entwickelt. In dieser
Arbeit wird untersucht, inwieweit sich GANs zur Erzeugung künstlicher Sonarbilder
eignen. Um das GAN auch mit wenigen Beispielen trainieren zu können, wird eine Art
des Transfer-Lernens mit Hilfe von einfachen simulierten Bildern entwickelt. Es zeigt
sich, dass die Performance eines Klassifikators durch Hinzunahme der künstlichen Bil-
der gesteigert werden kann.

A remaining problem is the lack of large-scale sonar image data sets when applying deep learning algo-
rithms for the automatic analysis of these data. However, over the past few years, generative adversarial
networks (GAN) where developed as a tool for generating synthetic data. This work investigates how
GANs can be used to generate synthetic sonar images. In order to train the GAN with only a few available
samples, a transfer-learning approach is applied which uses simple simulated images. Using the addi-
tional synthetic sonar images, the performance of a classifier can be increased.

Autoren 1 Einleitung Während also die Technologie zur Unterstützung
Yannik Steiniger und Dr. Seitensichtsonare sind spezielle unterwasser-akus- der Auswertung aufgenommener Sonardaten im-
Jannis Stoppe arbeiten am tische Sensoren, die unter anderem an autonomen mer weiter voranschreitet, ist deren Anwendung
Institut für den Schutz mariti- Unter-Wasser-Fahrzeugen (englisch: autonomous auf Sonardaten als recht schwierig einzustufen, da
mer Infrastrukturen des DLR underwater vehicle, AUV) montiert werden, um nicht genügend Daten für das Training moderner,
in Bremerhaven. den Meeresboden zu inspizieren und beispiels- selbstlernender Algorithmen vorhanden sind.
Prof. Dr. Dieter Kraus leitet weise nach Objekten zu suchen. In den letzten Andererseits haben sich in den letzten Jahren
das Institut für Wasserschall, Jahren wurde die Erkennungsrate von Objekten in generative neuronale Netze, sogenannte Gene-
Sonartechnik und Signal Bildaufnahmen stetig verbessert. Grundlage hier- rative Adversarial Networks (GAN) (Goodfellow et
theorie an der Hochschule für sind maschinelle Lernverfahren, genauer Deep al. 2014), aus dem Bereich des Deep Learnings als
Bremen. Convolutional Neural Networks (CNN), mittels de- eine gute Methode zum Generieren künstlicher
Prof. Dr. Tobias Meisen hat rer heute Erkennungsraten erreicht werden, die der Bilder erwiesen (Isola et al. 2017; Karras et al. 2020).
den Lehrstuhl für Technolo des Menschen in diesen Anwendungsbereichen GANs wurden bereits in anderen Arbeiten zur Ge-
gien und Management der entspricht (Wang et al. 2020). Sollen CNNs für die nerierung von Seitensichtsonar-Bildern (Steiniger
Digitalen Transformation an automatische Auswertung von Seitensichtsonar- et al. 2020) oder Synthetisches-Apertur-Sonar-Bil-
der Universität Wuppertal Bildern herangezogen werden, stellt sich jedoch dern (Reed et al. 2019) verwendet. Die Herausfor-
inne. häufig das Problem einer zu geringen Datenlage derung, die sich jedoch ergibt, ist, dass auch GANs
für ein verlässliches Training. Das Sammeln von auf künstlichen neuronalen Netzen beruhen und
yannik.steiniger@dlr.de Seitensichtsonar-Bildern von Objekten ist beson- entsprechend einen umfangreichen Trainingsda-
ders aufwendig, da im Allgemeinen die Position tensatz benötigen. Als Lösungsansatz greifen die
von Objekten unter Wasser im Vorfeld unbekannt beiden genannten Verfahren daher zunächst auf
ist. Auch das manuelle Auslegen von Objekten Simulationsdaten zurück. Für die Simulation kann
und die anschließende Aufnahme von Sonardaten beispielsweise ein Raytracer verwendet werden.
ist, aufgrund der Zeit- und Kostenintensität, nur Abb. 1 zeigt zum einen ein reales Sonarbild eines
eine äußerst aufwendige Möglichkeit, einen um- Reifens und zum anderen ein mit dem Raytracer
fangreichen und variablen Datensatz zu erstellen. POV-Ray simuliertes Bild. Die simulierten Bilder

30 Hydrographische Nachrichten

Synthetische Trainingsdaten

Abb. 1: Beispiel eines Reifens in einem Seitensichtsonar-Bild
und simuliert mit POV-Ray (rechts)

weisen zwar die in einem echten Seitensichtsonar-
Bild zu erwartenden geometrischen Formen für
die Highlight- und Schattenregionen auf, enthal-
ten aber weder weitere Details noch anwendungs-
Abb. 2: AUV SeaCat Mk1 der Atlas Elektronik
typisches Rauschen oder Ähnliches.
beim Zu-Wasser-Lassen
Reed et al. verwenden in ihrem Ansatz ein GAN,
um die simulierten Bilder in Sonarbilder zu »über-
setzen«. Im hier vorgestellten Ansatz werden die
simulierten Bilder stattdessen in einem ersten
Schritt für ein Vortrainieren des GANs verwendet.
Dadurch lernt das künstliche neuronale Netz, die
geometrischen Formen der Highlight- und Schat-
tenregionen zu erzeugen. Erst in einem zweiten
Schritt, dem Transfer-Lernen, werden die echten
Sonarbilder zum Trainieren verwendet, sodass das
GAN die Verteilung der Pixelintensitäten in den je-
weiligen Regionen im Bild lernt.

2 Aufnahme der Seitensichtsonar-Bilder
Für die Datenerzeugung wird das AUV SeaCat Mk1
der Atlas Elektronik GmbH verwendet (Kalwa 2019).
Das AUV bietet die Möglichkeit, zuvor geplante
Missionen weitgehend autonom abzufahren und
dabei Messdaten mit Hilfe unterschiedlicher Sen-
soren zu erzeugen. Das AUV ist mit einem Doppler
Velocity Log für die Messung der Geschwindigkeit
über Grund, einem Drucksensor für die Messung
Abb. 3: Beispiel eines aufgenommenen
der Tiefe und einem GNSS-System zur Positionie-
Seitensichtsonar-Bildes
rung über Wasser ausgestattet. In Kombination mit
einem hochgenauen Inertial Navigation System
(INS) ermöglichen diese Sensoren eine Positionier- einer experimentellen Signalverarbeitungskette
genauigkeit des AUVs von bis zu 0,1 % der unter werden die während einer Mission aufgenomme-
Wasser zurückgelegten Wegstrecke, wodurch eine nen Rohdaten des Seitensichtsonars in Sonarbilder
präzise Lokalisierung von Zielobjekten unter Was- des Meeresbodens, wie in Abb. 3 dargestellt, um-
ser möglich ist. Außer dem Seitensichtsonar Edge- gewandelt.
tech 2205 am Rumpf führt das AUV in seinem mo- Die aus den erstellten Sonarbildern extrahierten
dularen Sensorkopf eine Kamera mit künstlicher Objekte sind in Tabelle 1 aufgeführt. Zusätzlich ist
Beleuchtung, ein hochauflösendes Fächerecholot die für die spätere Anwendung der neuronalen
und einen parametrischen Sub-Bottom-Profiler Netze relevante Aufteilung in Trainings- und Test-
mit. Das Seitensichtsonar erlaubt grundsätzlich beispiele angegeben. Es ist zu erkennen, dass vor
das gleichzeitige Scannen mit zwei unterschied- allem für die Klasse Reifen besonders wenig Bei-
lichen Frequenzen. Die Daten dieser Messung
wurden mit einer Frequenz von 850 kHz erhoben, Objekt Anzahl der Anzahl der
Trainingsbeispiele Testbeispiele
die eine Auflösung im Zentimeterbereich und eine
Reichweite von 75 m zu jeder Seite erlaubt. Reifen 18 17
In der Regel werden parallel zur Aufnahme der
Stein 36 210
Daten mit dem Seitensichtsonar Bathymetriedaten
mit einem Fächerecholot aufgenommen. Je nach Hintergrund 36 210
Auflösung der Daten besteht die Möglichkeit, über
die einfache Bathymetrie hinaus 3D-Punktwolken Tabelle 1: Annotierte Objekte und Anzahl dieser im Trainings-
von Objekten zu generieren (Heuskin 2020). Mit bzw. Testdatensatz

HN 119 — 06/2021 31

Synthetische Trainingsdaten

                                   spiele zur Verfügung stehen. Synthetische Bilder                   darin, diesen Eingang in ein Sonarbild zu trans-
                                   dieser Klasse können genutzt werden, um dieses                     formieren. Der Discriminator hingegen sieht ent-
                                   Ungleichgewicht auszugleichen.                                     weder ein echtes Bild aus dem Trainingsdatensatz
                                                                                                      oder ein vom Generator erzeugtes Bild und weist
                                   3 Künstliche Sonarbilder für                                       dem jeweiligen Bild eine Wahrscheinlichkeit P zu,
                                   die Klassifikation                                                 die angibt ob er das Bild für ein echtes Bild (P = 1)
                                   Wie zuvor bereits geschrieben, sind insbesonde-                    oder generiertes Bild (P = 0) hält. Während des Trai-
                                   re Objektklassen, die sehr selten auftreten, eine                  nings ist das Ziel des Generators, den Discriminator
                                   zusätzliche Herausforderung für Lernverfahren.                     glauben zu lassen, dass das generierte Bild echt ist.
                                   In dieser Arbeit widmen wir uns daher der Syn-                     Somit nähert sich die Verteilung der Pixelintensi-
                                   these von Bildern derartiger Klasse, in diesem Fall                täten der generierten Bilder im Laufe des Trainings
                                   also der Klasse Reifen. Obwohl sich diese Arbeit                   immer mehr der der Trainingsdaten an.
                                   speziell mit dem Objekt Reifen befasst, lässt sich                    Beim hier betrachteten Transfer-Lernen besteht
                                   das Verfahren auch auf beliebige andere Objekte                    der Trainingsdatensatz zunächst aus 10 000 simu-
                                   übertragen. Für komplexere Objekte wird jedoch                     lierten Bildern. In der Simulation werden Parame-
                                   gegebenenfalls die Simulation zum Erzeugen der                     ter wie Abstand zum Sonar oder Größe des Ob-
                                   Daten für das Vortrainieren aufwendiger.                           jekts variiert, um einen differenzierten Datensatz
                                      Der entwickele Trainingsprozess des GANs mit                    zu erhalten. Wie in Abb. 4 (b) zu erkennen, weisen
                                   Vortrainieren und Transfer-Lernen ist in Abb. 4                    die generierten Bilder nach diesem Vortrainieren
                                   schematisch dargestellt. Das GAN ist aus zwei                      eine deutliche Highlight- und Schattenregion auf,
                                   neuronalen Netzen aufgebaut: dem Generator                         wie sie für Seitensichtsonar-Bilder zu erwarten ist.
                                   und dem Discriminator. Der Generator erhält als                    Für das Transfer-Lernen wird dieses GAN mit den
                                   Eingangsdaten ein Bild mit zufällig verteilten Pi-                 echten Seitensichtsonar-Bildern trainiert, wobei
                                   xelintensitäten. Das formulierte Lernziel besteht                  zuvor die Gewichte der letzten Schicht im neuro-

     Rauschen                        Generator                                                  Rauschen                        Generator

                                                                       Training
                                                           echt                                                                               echt
     Trainings-                    Discriminator                                                Trainings-                    Discriminator
       daten                                               generiert                              daten                                       generiert

                                  (a)                                                                                         (b)

     Rauschen                        Generator                                                  Rauschen                        Generator

                                                                       Training
                                                           echt                                                                               echt
     Trainings-                    Discriminator                                                Trainings-                    Discriminator
       daten                                               generiert                              daten                                       generiert

                                   (c)                                                                                        (d)
 Abb. 4: Prozess des Transfer-Lernens. (a) Das GAN generiert nur Rauschen. (b) Das vortrainierte GAN generiert simulierte Bilder.
 (c) Das vortrainierte GAN wird mit echten Sonarbildern trainiert. (d) Das finale GAN generiert synthetische Sonarbilder

32                                                                                                                            Hydrographische Nachrichten

Synthetische Trainingsdaten

nalen Netz des Discriminators neu initialisiert Anzahl synthetischer Bilder ACCbal F1macro
werden, um eine Überanpassung und so ein Ver-
schwinden des Gradienten während des Trainings 0 0,6298 0,6302
zu verhindern. Die Abb. 4 (d) zeigt, dass das finale 9 0,6388 0,6379
GAN nicht nur die geometrische Form, sondern
auch die Pixelintensitäten in dem Bild realistisch 18 0,6376 0,6364
generiert. 36 0,6379 0,6368
Das beschriebene Verfahren, basierend auf der
Methodik des Transfer-Lernens, verringert das für Tabelle 2: Klassifikationsperformance des CNN für
GANs typische Problem des Mode-Collapse. Da verschieden starke Augmentierungen
nur wenige reale Trainingsbeispiele zur Verfügung
stehen, würde ein direktes Lernen der Transfor- diese Klassifikation wird im Folgenden ein CNN
mation von Eingangsrauschen zu Sonarbild dazu verwendet. Die Augmentierung des Trainingsda-
führen, dass das GAN in einen Zustand kollabiert, tensatzes des CNN ist in Abb. 5 dargestellt. Mit Hil-
in dem lediglich ein (nicht zwingend realistisches) fe der synthetischen Sonarbilder von Reifen wird
Bild unabhängig vom Rauschen generiert wird. der Datensatz aus Tabelle 1 ausgeglichen.
Der Discriminator lernt nur noch dieses eine Bild Die Performance des CNN wird durch die aus-
zurückzuweisen. Daraufhin muss der Generator balancierte Genauigkeit (englisch: balanced ac-
seine Transformation nur minimal ändern, um den curacy, ACCbal) und den Makro-F1-Wert (englisch:
Discriminator zu täuschen. Somit führt ein Fortset- macro F1 score, F1macro) gemessen. Die Tabelle 2
zen des Trainingsprozesses nicht mehr aus diesem gibt die Performance für eine unterschiedliche
Zustand des Mode-Collapse heraus. Die einzige Anzahl an synthetischen Bildern im augmentier-
Lösung ist es, das gesamte Training neu zu starten. ten Trainingsdatensatz an. Mit 18 synthetischen
Um dies zu umgehen, muss das Kollabieren des Bildern ergibt sich ein ausgeglichener Trainings-
GANs verhindert werden. datensatz. Alle vier Experimente wurden mit zehn
Aber: Obwohl das Transfer-Lernen zwar das verschiedenen Initialisierungen des CNN durch-
Problem des Mode-Collapse verhindert, kann die geführt. In Tabelle 2 sind die Mittelwerte der Met-
Variabilität in den generierten Daten dennoch riken aufgelistet.
gering sein. Wie verschieden die Daten, die von Das Hinzunehmen der synthetischen Daten
dem GAN generiert werden, letztlich sind, ist da- zeigt eine leichte Steigerung in beiden Metriken
bei von vielen Faktoren abhängig und muss noch von circa einem Perzentil. Es ist jedoch auch zu
genauer untersucht werden. Das Verhindern erkennen, dass mehr künstliche Bilder nicht zu
des Kollabierens des GANs hin zu einer einzigen einer weiteren Steigerung führen. Dies lässt dar-
Konfiguration der Ergebnisse stimmt jedoch zu- auf schließen, dass die Variabilität in den generier-
versichtlich, dass durch eine Anpassung der Para- ten Daten nicht ausreichend ist, um einen großen
meter auch die gewünschte Variabilität erreicht synthetischen Datensatz zu erzeugen. Es ist hier-
werden kann. bei jedoch zu beachten, dass zum Trainieren des
GANs – entsprechend der Ausgangsproblematik
4 Performance des Klassifikators von nur spärlich verfügbaren Trainingsdaten – le-
Ziel der Erzeugung künstlicher Sonarbilder ist es diglich 18 reale Seitensichtsonar-Bilder verwendet
letztendlich, die Performance eines Klassifikators wurden.
durch die zusätzlichen Daten zu verbessern. Für Die Performancesteigerung durch das Ver-

Rauschen Generator synth.
Daten
Reifen
CNN Stein
Hintergrund

Trainings-
daten

Abb. 5: Augmentieren des Trainingsdatensatzes
für die Klassifikation mit vom GAN erzeugten Daten

HN 119 — 06/2021 33

Synthetische Trainingsdaten

                              wenden der synthetischen Daten ist messbar,                        Um die Methodik weiter zu verbessern, ist ein
                              verwandelt dabei jedoch – umgangssprachlich                     primäres Ziel, die Variabilität in den generierten
                              formuliert – einen passabel arbeitenden Detektor                Daten zu erhöhen. Dies kann zum einen dadurch
                              keineswegs in ein Patentrezept. Während für das                 erreicht werden, dass auch der Hintergrund,
                              Trainieren von CNNs zur automatischen Auswer-                   sprich der Meeresboden, in einem weiteren Vor-
                              tung von Seitensichtsonar-Bildern die ausgiebige                trainingsschritt generiert wird. Zum anderen kön-
                              Erfassung von Daten nach wie vor das Mittel der                 nen bekannte Eigenschaften der Verteilungen der
                              Wahl darstellt, lassen sich mit synthetischen Daten             Pixelintensitäten in den Highlight- und Schatten-
                              gegebenenfalls noch ein paar Register ziehen, falls             regionen genutzt werden (Lehmann 2013). Da-
                              die Datenlage nicht verbessert werden kann.                     mit lassen sich die Bilder nach dem Vortrainieren
                                                                                              bereits realistischer gestalten und so etwas an
                              5 Zusammenfassung und Ausblick                                  Komplexität aus dem Schritt des Transfer-Lernens
                              In diesem Artikel wurde ein Verfahren vorgestellt,              nehmen.
                              um mittels Methoden des maschinellen Lernens                       Generell sind GANs eine vielversprechende Me-
                              synthetische Seitensichtsonar-Bilder zu erzeugen.               thode, nicht um die Erfassung echter Trainings-
                              Speziell wurde ein GAN mit Bildern eines Raytra-                daten zu substituieren, sondern um fehlende
                              cers vortrainiert und anschließend ein Transfer-                Daten, die nicht ohne weiteres gewonnen werden
                              Lernen mit echten Sonarbildern durchgeführt.                    können, zu synthetisieren. Echte Daten bleiben
                              Die synthetischen Bilder weisen die zu erwarten-                das Mittel der Wahl – aber sollten insbesondere
                              den geometrischen Formen und Pixelintensitäten                  für bestimmte Objekttypen eines Datensatzes
                              auf. Es konnte gezeigt werden, dass die Verwen-                 mehr Beispiele benötigt werden, stellen GANs
                              dung dieser synthetischen Daten zusätzlich zum                  eine Möglichkeit zur Verbesserung der Datenlage
                              Trainingsdatensatz eines Klassifikators die Perfor-             als Alternative zu eventuell kostspieligen weiteren
                              mance steigern kann.                                            Kampagnen dar. //

                              Literatur
                              Goodfellow, Ian; Jean Pouget-Abadie et al. (2014): Generative   Lehmann, Benjamin (2013): Beiträge zur automatisierten
                                 Adversarial Nets. Advances in Neural Information                Objekterkennung und insbesondere zur Bild-
                                 Processing Systems 27, MIT Press, DOI: 10.1145/3422622          Segmentierung in hochaufgelösten Sonarbildern. Logos
                              Heuskin, David; Frank Lehmann (2020): Drohnengestützte             Verlag Berlin
                                 Erfassung von maritimen Infrastrukturen. Hydrographische     Reed, Albert; Isaac D. Gerg et al. (2019): Coupling Rendering
                                 Nachrichten, DOI: 10.23784/HN116-05                             and Generative Adversarial Networks for Artificial SAS
                              Isola, Philipp; Jun-Yan Zhu et al. (2017): Image-to-Image          Image Generation. OCEANS 2019 MTS/IEEE SEATTLE,
                                 Translation with Conditional Adversarial Networks.              DOI: 10.23919/OCEANS40490.2019.8962733
                                 2017 IEEE Conference on Computer Vision and Pattern          Steiniger, Yannik; Jannis Stoppe et al. (2020): Dealing With
                                 Recognition (CVPR), DOI: 10.1109/CVPR.2017.632                  Highly Unbalanced Sidescan Sonar Image Datasets
                              Kalwa, Jörg (2019): Unter-Wasser-Drohnen für Hydrographie          for Deep Learning Classification Tasks. Global OCEANS
                                 und Seebodenerkundung. Hydrographische Nachrichten,             2020 MTS/IEEE Singapore – U.S. Gulf Coast, DOI: 10.1109/
                                 DOI: 10.23784/HN114-02                                          IEEECONF38699.2020.9389373
                              Karras, Tero; Samuli Laine et al. (2020): Analyzing and         Wang, Chien-Yao; Alexey Bochkovskiy; Hong-yuan Mark Liao
                                 Improving the Image Quality of StyleGAN. 2020 IEEE/CVF          (2020): Scaled-YOLOv4: Scaling Cross Stage Partial Network.
                                 Conference on Computer Vision and Pattern Recognition           https://arxiv.org/abs/2011.08036v2
                                 (CVPR), DOI: 10.1109/CVPR42600.2020.00813

34                                                                                                                   Hydrographische Nachrichten

Sie können auch lesen