Automatisierte Erkennung von Infrastrukturelementen mit neuronalen Netzen

Die Seite wird erstellt Ansgar-Maximilian Lutz
 
WEITER LESEN
Automatisierte Erkennung von Infrastrukturelementen mit neuronalen Netzen
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCE
                        Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH /
                        Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten
                        genehmigt von DVV Media Group, 2018.

     Automatisierte Erkennung von Infrastrukturelementen
     mit neuronalen Netzen
                         Automated recognition of infrastructure elements
                                                   using neural networks
     Cengiz Genc | Felix Harmsen | Tobias Köhler

     K   ünstliche Intelligenz ist einer der heutigen Megatrends,
         der aufgrund seines immensen Potenzials für Effizienzstei-
     gerung und Automatisierung verschiedene Branchen bewegt.
                                                                           A      rtificial intelligence is one of today’s megatrends that
                                                                                  are shaking up various industries due to its immense
                                                                           potential for efficiency and automation. The rail industry
     Auch in der Eisenbahn existieren verschiedenste Anwendungs-           also has a number of fields of application for artificial intel-
     felder für künstliche Intelligenz. In diesem Artikel werden neben     ligence. This article examines, in addition to the basics of ar-
     den Grundlagen der künstlichen Intelligenz verschiedene Ein-          tificial intelligence, different applications for digital planning
     satzmöglichkeiten in der digitalen Planung und Analyse von Ei-        and analysis of rail infrastructures.
     senbahninfrastrukturen beleuchtet.
                                                                           1 Introduction
     1 Einleitung
                                                                           The basic requirements for digital planning are up-to-date and
     Die Grundvoraussetzung für die digitale Planung sind (digitale)       correct (digital) planning documents. However, it is precisely
     aktuelle und korrekte Planunterlagen. Genau diese Bedingungen         the conditions of the digital format, data actuality and data cor-
     des digitalen Formats, der Aktualität und Korrektheit stellen je-     rectness that still present a major challenge in the railway world,
     doch nach wie vor eine große Herausforderung in der Eisenbahn-        given that most planning documents today are only available in
     welt dar, da heute Pläne in den meisten Fällen in flachen digitalen   flat digital formats (e. g. PDF, TIFF) without any object infor-
     Formaten (z. B. PDF, Tiff ) ohne Objektinformationen oder in ana-     mation, or even only in analog form. What’s more, many inven-
     loger Form vorliegen. Hinzu kommt, dass bei vielen Bestandsplä-       tory documents are no longer up-to-date. This situation implies
     nen die Aktualität nicht mehr gegeben ist. In der Praxis führt die-   in practice that, prior to any building project, it is necessary to
     ser Umstand dazu, dass vor jedem Bauvorhaben geprüft werden           check whether the documents, which are often several decades
     muss, ob die oftmals mehrere Jahrzehnte alten Unterlagen noch         old, still match the conditions in the outside world. These days,
     der Außenwelt entsprechen. Dies geschieht heute mittels Ortsbe-       this is done by means of site inspection, photo documentation
     gehung, Fotodokumentation und Vermessung per Messrad. Dazu            and measuring wheel. To this end, the track must be closed to
     muss die Eisenbahnstrecke gesperrt werden, um Gefährdungen            prevent hazards to the survey crew. Subsequently, the existing
     für den Messtrupp zu vermeiden. Anschließend müssen die in Pa-        inventory documents, available as hard copy or flat digital for-
     pierform oder in flachem Format vorliegenden Bestandsplanun-          mat need to be digitized by hand to enter them into a planning
     terlagen in Handarbeit digitalisiert werden, indem sie in eine Pla-   software. Both steps are extremely expensive and time consum-
     nungs-Software übertragen werden. Beide Schritte sind äußerst         ing, and could be significantly optimized using artificial intel-
     kosten- und zeitintensiv und können durch den Einsatz von künst-      ligence.
     licher Intelligenz deutlich optimiert werden.
                                                                           2 Research Project RIMcomb
     2 Forschungsprojekt RIMcomb
                                                                           To lay the foundations for consistent digital planning using
     Um die Grundlagen für eine durchgängig digitale Planung in BIM-       BIM (Building Information Modeling) methodology, Signon
     Methodik (Building Information Modeling) zu schaffen, hat die         Deutschland GmbH, together with company AEC3 and the
     Signon Deutschland GmbH zusammen mit der Firma AEC3 und               Technical University of Munich, has launched a research project
     der Technischen Universität München ein Forschungsprojekt ins         called RIMcomb (Railway Information Modeling: Equipment
     Leben gerufen – RIMcomb (Railway Information Modeling: für            technology for rail infrastructures).The work packages of the
     die Ausrüstungstechnik von Bahninfrastruktur). In den Arbeitspa-      research project examine different aspects of the digital plan-
     keten des Forschungsprojekts werden unterschiedliche Aspekte          ning process. Thus, the goal of each work package is to research
     der digitalen Planung untersucht. So ist das Ziel eines Arbeitspa-    methods and technologies that will allow digitizing analog doc-
     kets die Erforschung von Methoden und Technologien zur Digi-          uments and real-world environments of rail equipment technol-
     talisierung von analogen Plänen und Realumgebungen der Aus-           ogy. Signon’s work package covers the research into the auto-
     rüstungstechnik der Eisenbahn. Signon ist in diesem Arbeitspaket      matic recognition of rail infrastructure elements in form of vid-
     für die Erforschung der automatischen Erkennung von Infrastruk-       eo and image data. This task is solved using neural networks,
     turelementen der Eisenbahn in Video- und Bilddaten zuständig.         which are described below.

48   SIGNAL + DRAHT (110) 9 / 2018
Automatisierte Erkennung von Infrastrukturelementen mit neuronalen Netzen
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCETHEME
                Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH /
                Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten
                genehmigt von DVV Media Group, 2018.
Diese Aufgabenstellung wird mittels neuronaler Netze gelöst, die          3 Object recognition using neural networks
nachfolgend beschrieben werden.
                                                                          3.1 Background
3 Objekterkennung mit neuronalen Netzen                                   The concept of visual object recognition using artificial neural
                                                                          networks mimics the processes in the human brain. The algo-
3.1 Historie                                                              rithms used learn independently to recognize objects and assign
Das Konzept der visuellen Objekterkennung mittels künstlicher             categories, much like a child. This learning process constantly
neuronaler Netze ist Vorgängen im menschlichen Gehirn ent-                provides humans with information as long as our eyes are open.
lehnt. Die verwendeten Algorithmen lernen ähnlich wie ein neu-            To process the information received, we have a supercomput-
geborener Mensch selbstständig, Objekte zu erkennen und Kate-             er at our disposal, developed and optimized over millions of
gorien zuzuordnen. Als Menschen erhalten wir fortlaufend Infor-           years: Our brain. According to current estimates, the brain area
mationen für diesen Lernvorgang, solange unsere Augen geöff-              alone responsible for the processing of visual stimuli (visual cor-
net sind. Zur Verarbeitung der so erlangten Informationen steht           tex) consists of about 140 million neurons per hemisphere. It is
uns ein über Millionen von Jahren entwickelter und optimierter            thanks to the computer games industry and its continuous de-
Supercomputer zur Verfügung: unser Gehirn. Allein das Hirnareal,          mand for more and more powerful graphics cards that over the
das für die Verarbeitung visueller Reize verantwortlich ist (visuel-      last years relatively affordable computer systems have become
ler Kortex), besteht nach aktuellen Schätzungen aus ca. 140 Mio.          available. And those can handle the flood of data required for
Neuronen pro Hemisphäre. Der Computerspieleindustrie und ih-              this learning process. At the same time, several companies and
rem kontinuierlichen Bedarf an immer leistungsfähigeren Grafik-           research institutes operating in the field of machine vision and
karten ist es zu verdanken, dass seit einigen Jahren auch verhält-        machine learning have provided comprehensive and free image
nismäßig erschwingliche Rechnersysteme vorhanden sind, die die            databases to satisfy the data-hungry artificial neural networks.
für diesen Lernvorgang benötigte Datenflut verarbeiten können.            In 2012, Krizhevsky et al. succeeded for the first time to win
Zeitgleich wurden durch verschiedene Unternehmen und For-                 the ImageNet Large Scale Visual Recognition Competition
schungseinrichtungen, die im Gebiet des maschinellen Sehens               (ILSVRC) using a neural network. The ILSVRC is seen as the
und Lernens tätig sind, umfangreiche und freie Bilddatenbanken            “Olympics of machine vision”. Here, research groups compete
zur Verfügung gestellt, um dem Datenhunger künstlicher neuro-             annually with their image recognition algorithms to undercut
naler Netze gerecht zu werden.                                            the last competition’s error rate record. All teams use the same
2012 gelang es Krizhevsky et al. im Rahmen der ImageNet Large             set of 1.2 million images containing 1,000 different object types
Scale Visual Recognition Competition (ILSVRC) erstmalig, sich bei         to develop their algorithms. In the competition itself, these algo-
dem Wettbewerb mit einem neuronalen Netz durchzusetzen. Die               rithms are then put to the test with 150 000 previously unknown
ILSVRC kann als die „Olympiade des maschinellen Sehens“ ver-              images. In 2012, Krizhevsky et al. beat the competition by a large
standen werden. Hier treten Forschergruppen jährlich mit ihren            margin with an error rate of 15.3 % (compared to the 26.2 % er-
Bilderkennungsalgorithmen an, um die Konkurrenz in Hinsicht               ror rate of the runner-up algorithm). Since then, the ILSVRC
auf die Fehlerrate zu unterbieten. Dabei wird von allen Teams der-        has been dominated by neural networks. In 2017, 29 out of 38
selbe Datensatz von 1,2 Mio. Bildern, die 1000 verschiedene Ob-           teams achieved an error rate of less than 5 %.
jekttypen enthalten, verwendet, um ihre Algorithmen zu entwi-
ckeln. Beim Wettbewerb selbst werden diese dann mit 150 000               3.2 Convolutional Neural Networks
bisher unbekannten Bildern getestet. Krizhevsky et al. schlugen           The neural networks used for object recognition are of the Con-
die Konkurrenz 2012 mit einer Fehlerrate von 15,3 % mit großem            volutional Neural Networks (CNN) type. The designation of
Abstand (der zweitplatzierte Algorithmus erreichte auf den Test-          these networks is derived from the mathematical operation of
daten eine Fehlerrate von 26,2 %). Seitdem wird die ILSVRC von            convolution. The input images are convolved with different fil-
neuronalen Netzen dominiert. 2017 erreichten 29 von 38 Teams              ters learned by the network. The convolution produces a weight-
eine Fehlerrate von unter 5 %.                                            ed average of the input image, while the weight values are de-
                                                                          fined by the filter. This generates an output, which is also known
3.2 Convolutional Neural Networks                                         as feature map. This feature map in turn is convolved with ad-
Die zur Objekterkennung verwendeten neuronalen Netze gehö-                ditional filters, etc., which provide different levels of abstraction
ren zu den Convolutional Neural Networks (CNN). Die Bezeich-              from the original input image. As indicated by the name, feature
nung dieser Netze beruht auf der mathematischen Operation der             maps contain features extracted from the input image. The ac-
Faltung (engl. convolution). Die Eingangsbilder werden mit ver-           tual features depend on the level of abstraction and the filters
schiedenen vom Netz erlernten Filtern gefaltet. Durch die Faltung         learned. In general, however, the first feature maps only recog-
entsteht ein gewichteter Mittelwert des Eingangsbildes, wobei             nize comparatively primitive features such as edges. The features
die Gewichte durch den Filter vorgegeben werden. Hierdurch wird           extracted of the next feature map are composed based on the
ein Output generiert, der auch Feature Map genannt wird. Die-             previous maps. For example, the second feature map would de-
se Feature Map wird wiederum mit weiteren Filtern gefaltet usw.,          tect corners, as they are composed of the previously recognized
wodurch verschiedene Abstraktionsstufen vom ursprünglichen                edges. Thus, the feature maps code step by step features from
Eingangsbild erreicht werden. Dem Namen entsprechend enthal-              edges and corners to structures and to complex objects such as
ten die Feature Maps aus dem Eingangsbild extrahierte Merkmale            “dog paws”. Fig. 1 shows different input images (top) and the re-
(engl. features). Welche Merkmale dies sind, unterscheidet sich je        sponses of the feature maps (below) of different levels of abstrac-
nach Abstraktionsstufe und erlernten Filtern. Allgemein lässt sich        tion. While the newly learned filters of the first feature map only
jedoch sagen, dass auf den ersten Feature Maps vergleichswei-             show edges, the complexity of the detected properties increases
se primitive Merkmale wie Kanten erkannt werden, während sich             with each feature map. However, to be able to recognize useful
die extrahierten Merkmale der darauf folgenden Feature Maps je-           features at all, the network first has to be trained to recognize

                                                                                                 SIGNALLING + DATACOMMUNICATION (110) 9 / 2018    49
Automatisierte Erkennung von Infrastrukturelementen mit neuronalen Netzen
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCE
                      Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH /
                      Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten
                      genehmigt von DVV Media Group, 2018.
     weils aus den vorherigen zusammensetzen. Die zweite Feature            objects with the corresponding features. This requires image
     Map könnte beispielsweise Ecken erkennen, da diese sich aus            files in which the objects to be recognized are labeled. These im-
     den bereits zuvor erkannten Kanten zusammensetzen. So werden           ages are transferred to the network as input data. After process-
     Schritt für Schritt Merkmale von Kanten und Ecken über Struktu-        ing, the object classes recognized by the network are compared
     ren bis hin zu komplexen Objekten wie beispielsweise “Hunde-           with the labels in the respective image. The filter parameters are
     pfoten” in den Feature Maps kodiert. In Bild 1 sind verschiedene       adjusted based on this comparison. Using the gradient descent
     Eingangsbilder (oben) und die Reaktionen der Feature Maps (un-         method, the algorithm modifies those parameters, which, when
     ten) verschiedener Abstraktionsstufen zu sehen. Während die neu        adjusted, will best reduce the classification or localization error.
     gelernten Filter der ersten Feature Map lediglich Kanten aufwei-       It is in this step that the actual learning process of the network
     sen, steigt die Komplexität der erkannten Eigenschaften mit je-        takes place. In simple terms, it means that the algorithm adjusts
     der Feature Map. Damit jedoch überhaupt brauchbare Merkmale            the filter parameters using an actual / target comparison. The ac-
     erkannt werden können, muss das Netz zunächst auf das Erken-           tual value here is a recognized object in an image, the target val-
     nen von Objekten mit den entsprechenden Merkmalen trainiert            ue is the object actually labeled in the image. After adjustment
     werden. Hierfür werden Bilddateien benötigt, in denen die zu er-       of the parameter values in this way, the method is repeated until
     kennenden Objekte markiert sind. Diese Bilder werden dem Netz          the error rate is sufficiently low.
     als Eingangsdaten übergeben. Nach der Verarbeitung werden die
     vom Netz erkannten Objektklassen mit den Markierungen im je-           3.3 Challenges
     weiligen Bild verglichen. Beruhend auf diesem Abgleich werden          Training neural networks pose a number of challenges, such as the
     die Parameter der Filter angepasst. Über das Gradientenverfahren       very large demand for data mentioned above. Furthermore, high
     (Verfahren des steilsten Abstiegs, gradient descent) werden die        computing power is required so that the training using this data
     Parameter, über deren Anpassung sich der Klassifizierungs- bzw.        can be done within a reasonable period of time. Krizhevsky et al.
     Lokalisierungsfehler am besten verringern lässt, vom Algorithmus       trained their 2012 network with a dataset of 15 million labeled im-
     verändert. In diesem Schritt findet das tatsächliche Lernen des        ages with 22 000 classes. One training run took five to six days us-
     Netzes statt. Vereinfacht kann man also sagen, der Algorithmus         ing two Nvidia GTX 580 graphics cards. While hardware became
     passt die Parameter der Filter über einen Ist-Soll-Vergleich an. Der   more powerful over the years, the acquisition of labeled image data
     Ist-Wert ist hierbei ein erkanntes Objekt in einem Bild, der Soll-     remains a challenge, especially in specific application areas. An-
     Wert das tatsächlich im Bild markierte Objekt. Mit den so ange-        other point to consider is that in addition to the classification of
     passten Parameterwerten wird das Verfahren so oft wiederholt,          images, it is necessary to pinpoint a location of the objects searched
     bis die Fehlerrate hinreichend niedrig ist.                            in the image. Here too, convolutional neural networks are used, al-
                                                                            though approaches differ. Depending on the approach, addition-
     3.3 Herausforderungen                                                  al networks and thus additional learning parameters are added,
     Beim Training neuronaler Netze ergeben sich einige Herausfor-          which increases the training effort accordingly.
     derungen, wie der eingangs erwähnte sehr große Bedarf an Da-
     ten. Weiterhin wird eine hohe Rechenleistung benötigt, damit das       4 Recognition of rail infrastructure elements
     Training mit diesen Daten in annehmbarer Zeit durchgeführt wer-        using neural networks
     den kann. Krizhevsky et al. haben ihr Netz aus dem Jahr 2012 bei-
     spielsweise mit einem Datensatz von 15 Mio. markierten Bildern         The Signon research project RIMcomb designed and trained a
     mit 22 000 Klassen trainiert. Ein Trainingsdurchlauf dauerte fünf      prototype neural network to research the feasibility of automatic

     Bild 1: Verschiedene Abstraktionsstufen der Feature Maps [1]
     Fig. 1: Different abstraction levels of feature maps [1]

50   SIGNAL + DRAHT (110) 9 / 2018
Automatisierte Erkennung von Infrastrukturelementen mit neuronalen Netzen
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCETHEME
                Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH /
                Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten
                genehmigt von DVV Media Group, 2018.
bis sechs Tage auf zwei Nvidia GTX 580 Grafikkarten. Während die          object recognition. The following describes the steps required
Hardware mit den Jahren immer leistungsfähiger wird, bleibt die           and the corresponding results of this feasibility study.
Beschaffung von markierten Bilddaten insbesondere bei spezifi-
schen Anwendungsfeldern eine Herausforderung. Ein weiterer                4.1 Database
zu berücksichtigender Punkt ist, dass zusätzlich zur Klassifikation       The first step in the research project aimed at the development
der Bilder auch eine Lokalisation der gesuchten Objekte im Bild           of a neural network for object recognition was to create the da-
erfolgen muss. Auch hierfür werden Convolutional Neural Net-              tabase required for training. As already mentioned, neural net-
works verwendet, wobei sich die Ansätze hier unterscheiden. Je            works for the classification and localization of objects require
nach Ansatz kommen hier weitere Netze und damit zu lernende               large amounts of input data. Sometimes, training requires hun-
Parameter hinzu, was den Trainingsaufwand dementsprechend                 dreds, even thousands of appropriately prepared (labeled) im-
erhöht.                                                                   ages per class of objects to be recognized. Given that Signon has
                                                                          been providing rail infrastructure surveying services for many
4 Erkennung von Eisenbahninfrastrukturelementen                           years, using video camera and GPS technology (Signon prod-
mit neuronalen Netzen                                                     uct SATengine), it was possible to take advantage of a sufficient-
                                                                          ly large pool of image data. In addition to the existing videos,
Durch die Signon wurde im Forschungsprojekt RIMcomb ein neu-              there is also extensive metadata information about the elements
ronales Netz entworfen und trainiert, um die Machbarkeit einer            surveyed, which can be reused directly to edit the training data
automatischen Objekterkennung zu untersuchen. Nachfolgend                 (e. g. frame number, element class). To edit such data efficiently,
sind die erforderlichen Arbeitsschritte und die zugehörigen Er-           Signon developed a software, which, based on the metadata in-
gebnisse dieser Machbarkeitsstudie beschrieben.                           formation available for each object class, automatically extracts
                                                                          individual images from the videos to generate a master image
4.1 Datenbasis                                                            database for the training of the neural network.
Der erste Schritt der Entwicklung eines neuronalen Netzes zur Ob-
jekterkennung im Forschungsprojekt war die Schaffung der be-              4.2 Software technologies
nötigten Datenbasis für das Training. Wie bereits erwähnt setzen          Training of the network started as soon as the database was
neuronale Netze zur Klassifikation und Lokalisierung von Objek-           available.
ten große Mengen an Eingangsdaten voraus. Manchmal werden                 Thanks to the boom in machine learning over the last recent
hunderte, sogar tausende entsprechend vorbereiteter (markier-             years, there is a large number of different, freely available soft-
ter) Bilder pro Objektklasse, die erkannt werden soll, für das Trai-      ware frameworks with considerable user numbers, such as:
ning benötigt. Da die Signon bereits seit vielen Jahren Dienstleis-       • Google Tensorflow (https://www.tensorflow.org/)
tungen im Bereich der Vermessung von Eisenbahninfrastruktu-               • Microsoft Cognitive Toolkit (https://www.microsoft.com/
ren mittels Videokamera- und GPS-Technik mit dem Produkt Sig-                en-us/cognitive-toolkit/)
non SATengine anbietet, konnte glücklicherweise auf einen aus-            These frameworks make proprietary development of the basic
reichend großen Fundus an Bilddaten zurückgegriffen werden.               functions of neural networks (e. g. CNN) unnecessary, given
Zudem sind zu den vorhandenen Videos bereits umfangreiche                 that they are already provided in their entirety, allowing direct
Meta­informationen mit Angaben zu den vermessenen Elemen-                 creation and configuration of neural networks. For certain tasks,
ten vorhanden, die für die Aufbereitung der Trainingsdaten direkt         there are even pre-configured and trained networks to start with.
wiederverwendet werden können (z. B. Framenummer, Element-                The research project therefore first assessed which frameworks
klasse). Zur effizienten Vorbereitung der Daten wurde von Sig-            were suitable for the application of object recognition of rail in-
non eine Software entwickelt, die anhand der vorhandenen Meta­            frastructure elements, and then selected the most suitable one
informationen für jede Objektklasse einzelne Bilder automatisiert         after a cost-benefit analysis. This framework was subsequently
aus den Videos extrahiert, um somit einen Bilderstamm für das             embedded in a self-developed tool chain for training, evaluation
Training des neuronalen Netzes zu generieren.                             and further processing of object recognition data. With regard
                                                                          to the realization of neural networks, one could broadly summa-
4.2 Software-Technologien                                                 rize, that the biggest challenge for practical use today is no long-
Nachdem die Datenbasis zur Verfügung stand, wurde mit dem                 er the development of neural networks as such, but the design
Training des Netzes begonnen. Aufgrund des Booms der letz-                and automation of the training process, the optimization of ex-
ten Jahre im Bereich des Machine Learning kann mittlerweile auf           isting neural networks and the acquisition of suitable data. The
eine große Auswahl an verschiedenen, frei verfügbaren Software-           evaluation of the output information of a neural network (post-
Frameworks mit nennenswerter Anwenderzahl zurückgegriffen                 processing) poses yet further challenges.
werden, Beispiele:
• Google Tensorflow (https://www.tensorflow.org/)                         4.3 Pre-trained networks and training methods
• Microsoft Cognitive Toolkit (https://www.microsoft.com/en-us/           As already mentioned, there are already several pre-trained
   cognitive-toolkit/)                                                    neural networks for different tasks, including object recogni-
Diese Frameworks machen eine Eigenentwicklung der Grundfunk-              tion. These networks were trained using image databases such
tionen neuronaler Netze (z. B. CNN) überflüssig, da diese vollum-         as COCO (Common Objects trained in context), PASCAL
fänglich bereitgestellt werden. Mit ihnen können direkt neuronale         VOC or KITTI. Given that the trained object classes such as
Netze erstellt und konfiguriert werden. Für bestimmte Aufgaben-           cars, people or cats are more than often insufficient for specif-
stellungen existieren sogar bereits vorkonfigurierte und trainierte       ic use cases, further training and fine-tuning of the parameters
Netze, die für einen Einstieg verwendet werden können. Im For-            is required. However, prior to any training, it is necessary to
schungsprojekt wurde daher zunächst evaluiert, welche Frame-              first label the objects to be recognized with regard to position
works für den Anwendungsfall der Objekterkennung von Eisen-               and object class in several thousands of images, using a graphic

                                                                                                SIGNALLING + DATACOMMUNICATION (110) 9 / 2018    51
Automatisierte Erkennung von Infrastrukturelementen mit neuronalen Netzen
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCE
                      Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH /
                      Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten
                      genehmigt von DVV Media Group, 2018.
     bahninfrastrukturelementen in Frage kommen. Im Anschluss wur-          tool. Only then can the network training and evaluation pro-
     de das am besten zur Aufgabenstellung passende Framework mit-          cesses commence (fig. 2). Depending on the number of object
     tels Nutzwertanalyse ausgewählt. Dieses Framework wurde nach-          classes, the number of images and the computing power of the
     folgend in eine selbst entwickelte Werkzeugkette für Training,         hardware used, a single training run may take hours, days, or
     Evaluierung und Weiterverarbeitung von Objekterkennungsda-             even weeks.
     ten eingebettet. Vereinfacht könnte man hinsichtlich der Reali-
     sierung neuronaler Netze zusammenfassen, dass die größte He-           4.4 Evaluation of training results
     rausforderung heute nicht mehr in der Entwicklung der neurona-         Evaluation of training results requires different metrics. Thus,
     len Netze selbst, sondern in der Gestaltung und Automatisierung        the recognition rate, for example, is an elementary magni-
     des Trainingsprozesses, der Optimierung vorhandener neuronaler         tude that expresses the likelihood of the network having rec-
     Netze und der Beschaffung geeigneter Daten liegt. Weitere Her-         ognized an object. Furthermore, the error rates for misiden-
     ausforderungen ergeben sich zudem in der Auswertung der Aus-           tification or non-identification of objects are relevant mag-
     gangsinformationen eines neuronalen Netzes (Post-Processing).          nitudes for network evaluation. To detect errors, a compari-
                                                                            son is made between the information input by humans and
     4.3 Vortrainierte Netze und Trainingsprozess                           the information recognized by the network (primarily, object
     Wie bereits erwähnt existieren einige bereits vortrainierte neuro-     class and position in the image). Information input by humans
     nale Netze für unterschiedliche Aufgabenstellungen wie die Ob-         is deemed to be complete and correct. The metric Intersec-
     jekterkennung. Diese Netze wurden zuvor mithilfe von Bilderda-         tion-over-Union (IoU), for example, indicates the overlap ra-
     tenbanken wie z. B. Common Objects in Context (COCO), PASCAL           tio between the position of the recognized and the tagged ob-
     VOC oder KITTI trainiert. Da die trainierten Objektklassen wie z. B.   ject. Fig. 3 explains how this metric is determined (blue boxes:
     Autos, Menschen oder Katzen häufig nicht für den eigenen An-           tagged by humans, red boxes: network output). In addition,
     wendungsfall ausreichen, müssen weitere Trainings sowie ein            other metrics such as average precision for all object classes
     Fine Tuning der Parameter stattfinden. Bevor jedoch ein Training       or per object class are used to assess training progress. At the
     stattfinden kann, müssen zunächst über ein grafisches Werkzeug         start of a training run, recognition errors will still occur quite
     in mehreren tausend Bildern die zu erkennenden Objekte mit ih-         frequently, as the network has not yet extracted enough fea-
     rer Position und Objektklasse markiert werden. Erst danach kön-        tures of the objects to be recognized. With each training step,
     nen die Prozesse zum Trainieren und zur Evaluierung des Netzes         the network is given the opportunity to further optimize the
     gestartet werden (Bild 2). Je nach Anzahl der Objektklassen, An-       learned filter parameters and thereby minimize recognition
     zahl der Bilder und der Leistungsfähigkeit der verwendeten Hard-       errors. After many (more than often hundreds of thousands)
     ware kann ein einzelner Trainingsdurchlauf Stunden, Tage oder          of training steps, classification and localization become in-
     Wochen benötigen.                                                      creasingly more precise (fig. 4), as the error rate decreases and
                                                                            the recognition rate increases.
     4.4 Evaluierung von Trainingsergebnissen
     Um die Ergebnisse eines Trainings zu bewerten, werden verschie-        4.5 Overfitting
     dene Metriken benötigt. So ist beispielsweise die Erkennungsrate       When training networks, and in addition to the procedures
     eine elementare Größe, die ausdrückt, mit welcher Wahrschein-          described above, it is necessary to avoid the so-called overfit-
     lichkeit das Netz ein Objekt erkannt hat. Außerdem sind die Feh-       ting. Overfitting generally refers to the situation, where a net-
     lerraten zur Falscherkennung oder Nichterkennung von Objekten          work has too often learned from the same training data, and
     relevante Größen zur Bewertung des Netzes. Zur Aufdeckung von          therefore has become too specialized in this data. This will
     Fehlern wird ein Abgleich zwischen den von Menschenhand ein-           normally result in a very high recognition rate of the known
     gegebenen und den vom Netz erkannten Informationen durch-              training images, while recognition of objects in new and un-
     geführt (primär Objektklasse und Position im Bild). Durch einen        familiar images will be quite poor. A reliable indicator for
     Menschen eingegebene Informationen gelten als vollständig und          overfitting is that training errors decrease while test errors in-
     korrekt. Die Metrik Intersection-over-Union (IoU) beispielsweise       crease.

     Bild 2: Trainings- und Validierungsprozess
     Fig. 2: Training method and validation process

52   SIGNAL + DRAHT (110) 9 / 2018
Automatisierte Erkennung von Infrastrukturelementen mit neuronalen Netzen
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCETHEME
                Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH /
                Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten
                genehmigt von DVV Media Group, 2018.
gibt an, wie hoch die Überdeckung zwischen der Position des er-
kannten und des markierten Objekts ist. In Bild 3 wird dargelegt,
wie diese Metrik ermittelt wird (blaue Boxen: von Menschenhand
markiert, rote Boxen: vom Netz ausgegeben). Des Weiteren wer-
den auch Metriken wie die durchschnittliche Präzision über alle
Objektklassen oder pro Objektklasse beobachtet, um den Trai-
ningsfortschritt einzuschätzen. Zu Beginn eines Trainings treten
Fehlererkennungen noch sehr häufig auf, da durch das Netz noch
nicht genügend Merkmale der zu erkennenden Objekte extra-
hiert wurden. Mit jedem Trainingsschritt wird dem Netz die Chan-
ce gegeben, die erlernten Filterparameter weiter zu optimieren,
sodass die Erkennungsfehler minimiert werden. Nach vielen (oft
mehreren hunderttausend) Trainingsschritten werden die Klassi-
fizierung und Lokalisierung zunehmend präziser (Bild 4), d. h. die        Bild 3: Intersection-over-Union
Fehlerrate sinkt bzw. die Erkennungsrate steigt.                          Fig. 3: Intersection-over-Union

4.5 Overfitting
Bei dem Training von Netzen ist neben den genannten Vorge-                4.6 Train-test split
hensweisen zu beachten, dass kein sogenanntes Overfitting ein-            To assess training success, special tests as described above are
setzt. Von Overfitting spricht man im Allgemeinen, wenn ein Netz          performed. To this end, the images tagged by humans are di-
zu häufig aus denselben Trainingsdaten gelernt hat und damit zu           vided into training sets and test sets (e. g. 70 % training im-
stark auf diese spezialisiert wurde. Dies führt in aller Regel dazu,      ages, 30 % test images). The training only uses test images to
dass die Erkennungsrate für die bekannten Trainingsbilder sehr            allow for proper assessment of the training success. This pre-
hoch wird. Objekte in neuen, unbekannten Bildern werden jedoch            vents the network from being tested with images it has already
meist schlechter erkannt. Ein zuverlässiger Indikator für Overfit-        seen during training. Subsequently, the network can be used
ting ist demnach ein Sinken der Anzahl von Trainingsfehlern bei           for object recognition in videos from real-world measurement
gleichzeitig steigender Anzahl von Testfehlern.                           runs.
Automatisierte Erkennung von Infrastrukturelementen mit neuronalen Netzen
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCE
                      Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH /
                      Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten
                      genehmigt von DVV Media Group, 2018.

     Bild 4: Trainingsschritte und Erkennungsrate
     Fig. 4: Training steps and recognition rate

     4.6 Aufteilung in Trainings- und Testdaten                               4.7 First results of the feasibility study
     Um den Trainingserfolg zu prüfen, werden wie oben beschrieben            To assess feasibility, initially five object classes were defined
     spezielle Tests durchgeführt. Dazu werden die von Menschen-              (ETCS balises, light signals, switches, contact line masts,
     hand markierten Bilder in Trainings- und Testdaten aufgeteilt (z. B.     platform edges), which are both frequent and difficult to de-
     70 % Trainingsbilder, 30 % Testbilder). Zur Prüfung des Trainings-       tect (e. g. balise: easy, platform edge: difficult). Further on,
     erfolgs werden im Test nur Testbilder eingeben. So wird verhin-          appropriate training sets were prepared, run and optimized
     dert, dass das Netz mit Bildern getestet wird, die es bereits im Trai-   for these object classes. Although the feasibility study is not
     ning gesehen hat. Anschließend kann das Netz für die Objekter-           yet completed (current progress: four out of five objects are
     kennung in realen Messfahrtenvideos eingesetzt werden.                   recognized), it already shows the potential for efficiency en-
                                                                              hancements. Even early test runs yielded high recognition
     4.7 Erste Ergebnisse der Machbarkeitsstudie                              rates (fig. 5), which in the course of the project improved
     Zur Untersuchung der Machbarkeit einer automatischen Objekter-           even further due to optimizations. Additional measures, such
     kennung mittels neuronaler Netze wurden zunächst fünf Objekt-            as linking recognized information (e. g. mast sign and signal
     klassen festgelegt (ETCS-Balisen, Lichtsignale, Weichen, Ober-           type) or using trackers to track objects, will further reduce
     leitungsmasten, Bahnsteigkanten), die sowohl häufig vorkom-              the probability of misidentification or non-identification in
     men als auch unterschiedlich schwer zu erkennen sind (z. B. Ba-          the future.
     lise: leicht, Bahnsteigkante: schwer). Für diese Klassen wurden im
     weiteren Verlauf entsprechende Trainingsdaten vorbereitet und            5 Possible application scenarios
     Trainings bzw. Optimierungen durchgeführt. Obwohl die Mach-
     barkeitsstudie noch nicht gänzlich abgeschlossen wurde (aktuel-          In our opinion, the rail sector offers many application scenari-
     ler Fortschritt: vier von fünf Elementen werden erkannt), zeichnet       os for the automatic recognition of image-based objects. As de-
     sich bereits klar ab, dass eine Anwendung zur Effizienzsteigerung        scribed above, digitizing of planning documents is a conceivable
     möglich ist. So konnten schon in frühen Versuchen hohe Erken-            scenario for the use of object recognition. In this scenario, the
     nungsraten erzielt werden (Bild 5), die im Projektverlauf durch          sheer amount of manual work involved in digitizing can be sig-
     Optimierungen immer weiter verbessert wurden. Mittels zusätz-            nificantly reduced by using a neural network able to detect and
     licher Maßnahmen, wie der Verknüpfung von erkannten Informa-             then locate objects in images of the real-world environment or
     tionen (z. B. Mastschild und Signaltyp) oder dem Einsatz von Tra-        in scanned documents. Due to the positive results of the feasibil-
     ckern zur Verfolgung von Objekten, wird die Wahrscheinlichkeit           ity study, Signon will implement this scenario in the near future.
     einer Fehl- oder Nichterkennung zukünftig noch weiter gesenkt.           During the first stage, however, humans still check the results of
                                                                              the object recognition until having sufficient data which doc-
     5 Mögliche Anwendungsfälle                                               ument recognition reliability, even under difficult conditions.
                                                                              Significant savings are, thus, already possible without sacrific-
     Für die automatische Erkennung von Objekten anhand von Bild-             ing quality or confidence in the application. Another scenario
     daten existieren aus unserer Sicht in der Eisenbahn zahlreiche An-       could be identifying changes to rail infrastructures (e. g. caused
     wendungsfälle. Wie eingangs beschrieben ist die Digitalisierung          by damage), taking advantage of regular operations and subse-
     von Planunterlagen ein denkbares Szenario für den Einsatz einer          quent automatic image analysis. There are many other ways of
     Objekterkennung. In diesem Szenario kann die schiere Menge an            application in the field of automated driving and other automa-
     Handarbeit einer Digitalisierung durch die Nutzung eines neu-            tion projects.
     ronalen Netzes, das Objekte in Bildern der Realumgebung oder
     in Scans von Plänen erkennen und anschließend verorten kann,             6. Conclusion
     deutlich reduziert werden. Signon wird dieses Szenario aufgrund
     der positiven Ergebnisse der Machbarkeitsstudie in naher Zukunft         Due to the great advances in research, the number of applica-
     umsetzen. Im ersten Schritt wird jedoch immer noch ein Mensch            tion scenarios for neural networks has exploded in recent years.
     die Ergebnisse der Objekterkennung überprüfen, bis ausreichend           These days, not only the existence of appropriate, freely avail-

54   SIGNAL + DRAHT (110) 9 / 2018
Automatisierte Erkennung von Infrastrukturelementen mit neuronalen Netzen
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCETHEME
                  Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH /
                  Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten
                  genehmigt von DVV Media Group, 2018.

Bild 5: Erste Anwendungen der Objekterkennung
Fig. 5: First applications of object recognition

Erfahrungen hinsichtlich der Zuverlässigkeit auch unter schwieri-               able technologies, but also their application maturity allow the
gen Bedingungen existieren. Somit sind bereits deutliche Einspa-                widespread use of neural networks in various industries. For Si-
rungen möglich, ohne dabei Einbußen in der Qualität oder dem                    gnon Deutschland GmbH, the results of the RIMcomb research
Vertrauen in die Anwendung hinnehmen zu müssen. Ein weiteres                    project, which, based on a prototype, examines the feasibility of
Einsatzszenario könnte die Erkennung von Veränderungen an Ei-                   automatic object recognition by means of neural networks, are
senbahninfrastrukturen (z. B. durch Beschädigung) durch die re-                 clear.
gelmäßige Befahrung und nachfolgende automatische Bildanaly-                    The resulting findings will be used to digitize planning doc-
se sein. Hinzu kommen viele weitere Einsatzumfelder aus dem Be-                 uments and to analyze infrastructure data to save cost and
reich des automatischen Fahrens und anderer Automatisierungs-                   time.
vorhaben.

6 Fazit

Aufgrund der großen Fortschritte in der Forschung sind die Ein-
satzmöglichkeiten neuronaler Netze in den letzten Jahren ex-
plosionsartig gewachsen. Nicht nur das Vorhandensein entspre-
chender, frei verfügbarer Technologien, sondern auch deren An-
wendungsreife ermöglichen heute den breiten Einsatz neurona-
ler Netze in unterschiedlichsten Industrien. Aus Sicht der Signon
Deutschland GmbH zeigt sich dies anhand der Ergebnisse des For-                 AUTOREN | AUTHORS
schungsprojekts RIMcomb, in dem die Machbarkeit der automati-
                                                                                Dipl.-Inf. (FH) Cengiz Genc
schen Erkennung von Objekten mittels neuronaler Netze anhand                    Bereichsleiter Software / Division Manager Software
eines Prototyps untersucht wird. Die entstandenen Erkenntnisse                  E-Mail: cengiz.genc@signon-group.com
werden zukünftig in der Digitalisierung von Planunterlagen und
der Analyse von Infrastrukturdaten angewendet werden, um Kos-                   M. Sc. Felix Harmsen
                                                                                Softwareingenieur / Software Engineer
ten und Zeit zu sparen.
                                                                                E-Mail: felix.harmsen@signon-group.com

                                                                                M. Eng. Tobias Köhler
                                                                                Softwareingenieur / Software Engineer
                                                                                E-Mail: tobias.koehler@signon-group.com

LITERATUR | LITERATURE                                                          Alle Autoren | all authors
[1] nach Zeiler, M. D.; Fergus, R.: Visualizing and Understanding Convolu-      Signon Deutschland GmbH
tional Networks, 2013                                                           Anschrift /Address: Schützenstraße 15-17, D-10117 Berlin

                                                                                                          SIGNALLING + DATACOMMUNICATION (110) 9 / 2018   55
Sie können auch lesen