Automatisierte Erkennung von Infrastrukturelementen mit neuronalen Netzen
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCE Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH / Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten genehmigt von DVV Media Group, 2018. Automatisierte Erkennung von Infrastrukturelementen mit neuronalen Netzen Automated recognition of infrastructure elements using neural networks Cengiz Genc | Felix Harmsen | Tobias Köhler K ünstliche Intelligenz ist einer der heutigen Megatrends, der aufgrund seines immensen Potenzials für Effizienzstei- gerung und Automatisierung verschiedene Branchen bewegt. A rtificial intelligence is one of today’s megatrends that are shaking up various industries due to its immense potential for efficiency and automation. The rail industry Auch in der Eisenbahn existieren verschiedenste Anwendungs- also has a number of fields of application for artificial intel- felder für künstliche Intelligenz. In diesem Artikel werden neben ligence. This article examines, in addition to the basics of ar- den Grundlagen der künstlichen Intelligenz verschiedene Ein- tificial intelligence, different applications for digital planning satzmöglichkeiten in der digitalen Planung und Analyse von Ei- and analysis of rail infrastructures. senbahninfrastrukturen beleuchtet. 1 Introduction 1 Einleitung The basic requirements for digital planning are up-to-date and Die Grundvoraussetzung für die digitale Planung sind (digitale) correct (digital) planning documents. However, it is precisely aktuelle und korrekte Planunterlagen. Genau diese Bedingungen the conditions of the digital format, data actuality and data cor- des digitalen Formats, der Aktualität und Korrektheit stellen je- rectness that still present a major challenge in the railway world, doch nach wie vor eine große Herausforderung in der Eisenbahn- given that most planning documents today are only available in welt dar, da heute Pläne in den meisten Fällen in flachen digitalen flat digital formats (e. g. PDF, TIFF) without any object infor- Formaten (z. B. PDF, Tiff ) ohne Objektinformationen oder in ana- mation, or even only in analog form. What’s more, many inven- loger Form vorliegen. Hinzu kommt, dass bei vielen Bestandsplä- tory documents are no longer up-to-date. This situation implies nen die Aktualität nicht mehr gegeben ist. In der Praxis führt die- in practice that, prior to any building project, it is necessary to ser Umstand dazu, dass vor jedem Bauvorhaben geprüft werden check whether the documents, which are often several decades muss, ob die oftmals mehrere Jahrzehnte alten Unterlagen noch old, still match the conditions in the outside world. These days, der Außenwelt entsprechen. Dies geschieht heute mittels Ortsbe- this is done by means of site inspection, photo documentation gehung, Fotodokumentation und Vermessung per Messrad. Dazu and measuring wheel. To this end, the track must be closed to muss die Eisenbahnstrecke gesperrt werden, um Gefährdungen prevent hazards to the survey crew. Subsequently, the existing für den Messtrupp zu vermeiden. Anschließend müssen die in Pa- inventory documents, available as hard copy or flat digital for- pierform oder in flachem Format vorliegenden Bestandsplanun- mat need to be digitized by hand to enter them into a planning terlagen in Handarbeit digitalisiert werden, indem sie in eine Pla- software. Both steps are extremely expensive and time consum- nungs-Software übertragen werden. Beide Schritte sind äußerst ing, and could be significantly optimized using artificial intel- kosten- und zeitintensiv und können durch den Einsatz von künst- ligence. licher Intelligenz deutlich optimiert werden. 2 Research Project RIMcomb 2 Forschungsprojekt RIMcomb To lay the foundations for consistent digital planning using Um die Grundlagen für eine durchgängig digitale Planung in BIM- BIM (Building Information Modeling) methodology, Signon Methodik (Building Information Modeling) zu schaffen, hat die Deutschland GmbH, together with company AEC3 and the Signon Deutschland GmbH zusammen mit der Firma AEC3 und Technical University of Munich, has launched a research project der Technischen Universität München ein Forschungsprojekt ins called RIMcomb (Railway Information Modeling: Equipment Leben gerufen – RIMcomb (Railway Information Modeling: für technology for rail infrastructures).The work packages of the die Ausrüstungstechnik von Bahninfrastruktur). In den Arbeitspa- research project examine different aspects of the digital plan- keten des Forschungsprojekts werden unterschiedliche Aspekte ning process. Thus, the goal of each work package is to research der digitalen Planung untersucht. So ist das Ziel eines Arbeitspa- methods and technologies that will allow digitizing analog doc- kets die Erforschung von Methoden und Technologien zur Digi- uments and real-world environments of rail equipment technol- talisierung von analogen Plänen und Realumgebungen der Aus- ogy. Signon’s work package covers the research into the auto- rüstungstechnik der Eisenbahn. Signon ist in diesem Arbeitspaket matic recognition of rail infrastructure elements in form of vid- für die Erforschung der automatischen Erkennung von Infrastruk- eo and image data. This task is solved using neural networks, turelementen der Eisenbahn in Video- und Bilddaten zuständig. which are described below. 48 SIGNAL + DRAHT (110) 9 / 2018
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCETHEME Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH / Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten genehmigt von DVV Media Group, 2018. Diese Aufgabenstellung wird mittels neuronaler Netze gelöst, die 3 Object recognition using neural networks nachfolgend beschrieben werden. 3.1 Background 3 Objekterkennung mit neuronalen Netzen The concept of visual object recognition using artificial neural networks mimics the processes in the human brain. The algo- 3.1 Historie rithms used learn independently to recognize objects and assign Das Konzept der visuellen Objekterkennung mittels künstlicher categories, much like a child. This learning process constantly neuronaler Netze ist Vorgängen im menschlichen Gehirn ent- provides humans with information as long as our eyes are open. lehnt. Die verwendeten Algorithmen lernen ähnlich wie ein neu- To process the information received, we have a supercomput- geborener Mensch selbstständig, Objekte zu erkennen und Kate- er at our disposal, developed and optimized over millions of gorien zuzuordnen. Als Menschen erhalten wir fortlaufend Infor- years: Our brain. According to current estimates, the brain area mationen für diesen Lernvorgang, solange unsere Augen geöff- alone responsible for the processing of visual stimuli (visual cor- net sind. Zur Verarbeitung der so erlangten Informationen steht tex) consists of about 140 million neurons per hemisphere. It is uns ein über Millionen von Jahren entwickelter und optimierter thanks to the computer games industry and its continuous de- Supercomputer zur Verfügung: unser Gehirn. Allein das Hirnareal, mand for more and more powerful graphics cards that over the das für die Verarbeitung visueller Reize verantwortlich ist (visuel- last years relatively affordable computer systems have become ler Kortex), besteht nach aktuellen Schätzungen aus ca. 140 Mio. available. And those can handle the flood of data required for Neuronen pro Hemisphäre. Der Computerspieleindustrie und ih- this learning process. At the same time, several companies and rem kontinuierlichen Bedarf an immer leistungsfähigeren Grafik- research institutes operating in the field of machine vision and karten ist es zu verdanken, dass seit einigen Jahren auch verhält- machine learning have provided comprehensive and free image nismäßig erschwingliche Rechnersysteme vorhanden sind, die die databases to satisfy the data-hungry artificial neural networks. für diesen Lernvorgang benötigte Datenflut verarbeiten können. In 2012, Krizhevsky et al. succeeded for the first time to win Zeitgleich wurden durch verschiedene Unternehmen und For- the ImageNet Large Scale Visual Recognition Competition schungseinrichtungen, die im Gebiet des maschinellen Sehens (ILSVRC) using a neural network. The ILSVRC is seen as the und Lernens tätig sind, umfangreiche und freie Bilddatenbanken “Olympics of machine vision”. Here, research groups compete zur Verfügung gestellt, um dem Datenhunger künstlicher neuro- annually with their image recognition algorithms to undercut naler Netze gerecht zu werden. the last competition’s error rate record. All teams use the same 2012 gelang es Krizhevsky et al. im Rahmen der ImageNet Large set of 1.2 million images containing 1,000 different object types Scale Visual Recognition Competition (ILSVRC) erstmalig, sich bei to develop their algorithms. In the competition itself, these algo- dem Wettbewerb mit einem neuronalen Netz durchzusetzen. Die rithms are then put to the test with 150 000 previously unknown ILSVRC kann als die „Olympiade des maschinellen Sehens“ ver- images. In 2012, Krizhevsky et al. beat the competition by a large standen werden. Hier treten Forschergruppen jährlich mit ihren margin with an error rate of 15.3 % (compared to the 26.2 % er- Bilderkennungsalgorithmen an, um die Konkurrenz in Hinsicht ror rate of the runner-up algorithm). Since then, the ILSVRC auf die Fehlerrate zu unterbieten. Dabei wird von allen Teams der- has been dominated by neural networks. In 2017, 29 out of 38 selbe Datensatz von 1,2 Mio. Bildern, die 1000 verschiedene Ob- teams achieved an error rate of less than 5 %. jekttypen enthalten, verwendet, um ihre Algorithmen zu entwi- ckeln. Beim Wettbewerb selbst werden diese dann mit 150 000 3.2 Convolutional Neural Networks bisher unbekannten Bildern getestet. Krizhevsky et al. schlugen The neural networks used for object recognition are of the Con- die Konkurrenz 2012 mit einer Fehlerrate von 15,3 % mit großem volutional Neural Networks (CNN) type. The designation of Abstand (der zweitplatzierte Algorithmus erreichte auf den Test- these networks is derived from the mathematical operation of daten eine Fehlerrate von 26,2 %). Seitdem wird die ILSVRC von convolution. The input images are convolved with different fil- neuronalen Netzen dominiert. 2017 erreichten 29 von 38 Teams ters learned by the network. The convolution produces a weight- eine Fehlerrate von unter 5 %. ed average of the input image, while the weight values are de- fined by the filter. This generates an output, which is also known 3.2 Convolutional Neural Networks as feature map. This feature map in turn is convolved with ad- Die zur Objekterkennung verwendeten neuronalen Netze gehö- ditional filters, etc., which provide different levels of abstraction ren zu den Convolutional Neural Networks (CNN). Die Bezeich- from the original input image. As indicated by the name, feature nung dieser Netze beruht auf der mathematischen Operation der maps contain features extracted from the input image. The ac- Faltung (engl. convolution). Die Eingangsbilder werden mit ver- tual features depend on the level of abstraction and the filters schiedenen vom Netz erlernten Filtern gefaltet. Durch die Faltung learned. In general, however, the first feature maps only recog- entsteht ein gewichteter Mittelwert des Eingangsbildes, wobei nize comparatively primitive features such as edges. The features die Gewichte durch den Filter vorgegeben werden. Hierdurch wird extracted of the next feature map are composed based on the ein Output generiert, der auch Feature Map genannt wird. Die- previous maps. For example, the second feature map would de- se Feature Map wird wiederum mit weiteren Filtern gefaltet usw., tect corners, as they are composed of the previously recognized wodurch verschiedene Abstraktionsstufen vom ursprünglichen edges. Thus, the feature maps code step by step features from Eingangsbild erreicht werden. Dem Namen entsprechend enthal- edges and corners to structures and to complex objects such as ten die Feature Maps aus dem Eingangsbild extrahierte Merkmale “dog paws”. Fig. 1 shows different input images (top) and the re- (engl. features). Welche Merkmale dies sind, unterscheidet sich je sponses of the feature maps (below) of different levels of abstrac- nach Abstraktionsstufe und erlernten Filtern. Allgemein lässt sich tion. While the newly learned filters of the first feature map only jedoch sagen, dass auf den ersten Feature Maps vergleichswei- show edges, the complexity of the detected properties increases se primitive Merkmale wie Kanten erkannt werden, während sich with each feature map. However, to be able to recognize useful die extrahierten Merkmale der darauf folgenden Feature Maps je- features at all, the network first has to be trained to recognize SIGNALLING + DATACOMMUNICATION (110) 9 / 2018 49
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCE Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH / Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten genehmigt von DVV Media Group, 2018. weils aus den vorherigen zusammensetzen. Die zweite Feature objects with the corresponding features. This requires image Map könnte beispielsweise Ecken erkennen, da diese sich aus files in which the objects to be recognized are labeled. These im- den bereits zuvor erkannten Kanten zusammensetzen. So werden ages are transferred to the network as input data. After process- Schritt für Schritt Merkmale von Kanten und Ecken über Struktu- ing, the object classes recognized by the network are compared ren bis hin zu komplexen Objekten wie beispielsweise “Hunde- with the labels in the respective image. The filter parameters are pfoten” in den Feature Maps kodiert. In Bild 1 sind verschiedene adjusted based on this comparison. Using the gradient descent Eingangsbilder (oben) und die Reaktionen der Feature Maps (un- method, the algorithm modifies those parameters, which, when ten) verschiedener Abstraktionsstufen zu sehen. Während die neu adjusted, will best reduce the classification or localization error. gelernten Filter der ersten Feature Map lediglich Kanten aufwei- It is in this step that the actual learning process of the network sen, steigt die Komplexität der erkannten Eigenschaften mit je- takes place. In simple terms, it means that the algorithm adjusts der Feature Map. Damit jedoch überhaupt brauchbare Merkmale the filter parameters using an actual / target comparison. The ac- erkannt werden können, muss das Netz zunächst auf das Erken- tual value here is a recognized object in an image, the target val- nen von Objekten mit den entsprechenden Merkmalen trainiert ue is the object actually labeled in the image. After adjustment werden. Hierfür werden Bilddateien benötigt, in denen die zu er- of the parameter values in this way, the method is repeated until kennenden Objekte markiert sind. Diese Bilder werden dem Netz the error rate is sufficiently low. als Eingangsdaten übergeben. Nach der Verarbeitung werden die vom Netz erkannten Objektklassen mit den Markierungen im je- 3.3 Challenges weiligen Bild verglichen. Beruhend auf diesem Abgleich werden Training neural networks pose a number of challenges, such as the die Parameter der Filter angepasst. Über das Gradientenverfahren very large demand for data mentioned above. Furthermore, high (Verfahren des steilsten Abstiegs, gradient descent) werden die computing power is required so that the training using this data Parameter, über deren Anpassung sich der Klassifizierungs- bzw. can be done within a reasonable period of time. Krizhevsky et al. Lokalisierungsfehler am besten verringern lässt, vom Algorithmus trained their 2012 network with a dataset of 15 million labeled im- verändert. In diesem Schritt findet das tatsächliche Lernen des ages with 22 000 classes. One training run took five to six days us- Netzes statt. Vereinfacht kann man also sagen, der Algorithmus ing two Nvidia GTX 580 graphics cards. While hardware became passt die Parameter der Filter über einen Ist-Soll-Vergleich an. Der more powerful over the years, the acquisition of labeled image data Ist-Wert ist hierbei ein erkanntes Objekt in einem Bild, der Soll- remains a challenge, especially in specific application areas. An- Wert das tatsächlich im Bild markierte Objekt. Mit den so ange- other point to consider is that in addition to the classification of passten Parameterwerten wird das Verfahren so oft wiederholt, images, it is necessary to pinpoint a location of the objects searched bis die Fehlerrate hinreichend niedrig ist. in the image. Here too, convolutional neural networks are used, al- though approaches differ. Depending on the approach, addition- 3.3 Herausforderungen al networks and thus additional learning parameters are added, Beim Training neuronaler Netze ergeben sich einige Herausfor- which increases the training effort accordingly. derungen, wie der eingangs erwähnte sehr große Bedarf an Da- ten. Weiterhin wird eine hohe Rechenleistung benötigt, damit das 4 Recognition of rail infrastructure elements Training mit diesen Daten in annehmbarer Zeit durchgeführt wer- using neural networks den kann. Krizhevsky et al. haben ihr Netz aus dem Jahr 2012 bei- spielsweise mit einem Datensatz von 15 Mio. markierten Bildern The Signon research project RIMcomb designed and trained a mit 22 000 Klassen trainiert. Ein Trainingsdurchlauf dauerte fünf prototype neural network to research the feasibility of automatic Bild 1: Verschiedene Abstraktionsstufen der Feature Maps [1] Fig. 1: Different abstraction levels of feature maps [1] 50 SIGNAL + DRAHT (110) 9 / 2018
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCETHEME Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH / Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten genehmigt von DVV Media Group, 2018. bis sechs Tage auf zwei Nvidia GTX 580 Grafikkarten. Während die object recognition. The following describes the steps required Hardware mit den Jahren immer leistungsfähiger wird, bleibt die and the corresponding results of this feasibility study. Beschaffung von markierten Bilddaten insbesondere bei spezifi- schen Anwendungsfeldern eine Herausforderung. Ein weiterer 4.1 Database zu berücksichtigender Punkt ist, dass zusätzlich zur Klassifikation The first step in the research project aimed at the development der Bilder auch eine Lokalisation der gesuchten Objekte im Bild of a neural network for object recognition was to create the da- erfolgen muss. Auch hierfür werden Convolutional Neural Net- tabase required for training. As already mentioned, neural net- works verwendet, wobei sich die Ansätze hier unterscheiden. Je works for the classification and localization of objects require nach Ansatz kommen hier weitere Netze und damit zu lernende large amounts of input data. Sometimes, training requires hun- Parameter hinzu, was den Trainingsaufwand dementsprechend dreds, even thousands of appropriately prepared (labeled) im- erhöht. ages per class of objects to be recognized. Given that Signon has been providing rail infrastructure surveying services for many 4 Erkennung von Eisenbahninfrastrukturelementen years, using video camera and GPS technology (Signon prod- mit neuronalen Netzen uct SATengine), it was possible to take advantage of a sufficient- ly large pool of image data. In addition to the existing videos, Durch die Signon wurde im Forschungsprojekt RIMcomb ein neu- there is also extensive metadata information about the elements ronales Netz entworfen und trainiert, um die Machbarkeit einer surveyed, which can be reused directly to edit the training data automatischen Objekterkennung zu untersuchen. Nachfolgend (e. g. frame number, element class). To edit such data efficiently, sind die erforderlichen Arbeitsschritte und die zugehörigen Er- Signon developed a software, which, based on the metadata in- gebnisse dieser Machbarkeitsstudie beschrieben. formation available for each object class, automatically extracts individual images from the videos to generate a master image 4.1 Datenbasis database for the training of the neural network. Der erste Schritt der Entwicklung eines neuronalen Netzes zur Ob- jekterkennung im Forschungsprojekt war die Schaffung der be- 4.2 Software technologies nötigten Datenbasis für das Training. Wie bereits erwähnt setzen Training of the network started as soon as the database was neuronale Netze zur Klassifikation und Lokalisierung von Objek- available. ten große Mengen an Eingangsdaten voraus. Manchmal werden Thanks to the boom in machine learning over the last recent hunderte, sogar tausende entsprechend vorbereiteter (markier- years, there is a large number of different, freely available soft- ter) Bilder pro Objektklasse, die erkannt werden soll, für das Trai- ware frameworks with considerable user numbers, such as: ning benötigt. Da die Signon bereits seit vielen Jahren Dienstleis- • Google Tensorflow (https://www.tensorflow.org/) tungen im Bereich der Vermessung von Eisenbahninfrastruktu- • Microsoft Cognitive Toolkit (https://www.microsoft.com/ ren mittels Videokamera- und GPS-Technik mit dem Produkt Sig- en-us/cognitive-toolkit/) non SATengine anbietet, konnte glücklicherweise auf einen aus- These frameworks make proprietary development of the basic reichend großen Fundus an Bilddaten zurückgegriffen werden. functions of neural networks (e. g. CNN) unnecessary, given Zudem sind zu den vorhandenen Videos bereits umfangreiche that they are already provided in their entirety, allowing direct Metainformationen mit Angaben zu den vermessenen Elemen- creation and configuration of neural networks. For certain tasks, ten vorhanden, die für die Aufbereitung der Trainingsdaten direkt there are even pre-configured and trained networks to start with. wiederverwendet werden können (z. B. Framenummer, Element- The research project therefore first assessed which frameworks klasse). Zur effizienten Vorbereitung der Daten wurde von Sig- were suitable for the application of object recognition of rail in- non eine Software entwickelt, die anhand der vorhandenen Meta frastructure elements, and then selected the most suitable one informationen für jede Objektklasse einzelne Bilder automatisiert after a cost-benefit analysis. This framework was subsequently aus den Videos extrahiert, um somit einen Bilderstamm für das embedded in a self-developed tool chain for training, evaluation Training des neuronalen Netzes zu generieren. and further processing of object recognition data. With regard to the realization of neural networks, one could broadly summa- 4.2 Software-Technologien rize, that the biggest challenge for practical use today is no long- Nachdem die Datenbasis zur Verfügung stand, wurde mit dem er the development of neural networks as such, but the design Training des Netzes begonnen. Aufgrund des Booms der letz- and automation of the training process, the optimization of ex- ten Jahre im Bereich des Machine Learning kann mittlerweile auf isting neural networks and the acquisition of suitable data. The eine große Auswahl an verschiedenen, frei verfügbaren Software- evaluation of the output information of a neural network (post- Frameworks mit nennenswerter Anwenderzahl zurückgegriffen processing) poses yet further challenges. werden, Beispiele: • Google Tensorflow (https://www.tensorflow.org/) 4.3 Pre-trained networks and training methods • Microsoft Cognitive Toolkit (https://www.microsoft.com/en-us/ As already mentioned, there are already several pre-trained cognitive-toolkit/) neural networks for different tasks, including object recogni- Diese Frameworks machen eine Eigenentwicklung der Grundfunk- tion. These networks were trained using image databases such tionen neuronaler Netze (z. B. CNN) überflüssig, da diese vollum- as COCO (Common Objects trained in context), PASCAL fänglich bereitgestellt werden. Mit ihnen können direkt neuronale VOC or KITTI. Given that the trained object classes such as Netze erstellt und konfiguriert werden. Für bestimmte Aufgaben- cars, people or cats are more than often insufficient for specif- stellungen existieren sogar bereits vorkonfigurierte und trainierte ic use cases, further training and fine-tuning of the parameters Netze, die für einen Einstieg verwendet werden können. Im For- is required. However, prior to any training, it is necessary to schungsprojekt wurde daher zunächst evaluiert, welche Frame- first label the objects to be recognized with regard to position works für den Anwendungsfall der Objekterkennung von Eisen- and object class in several thousands of images, using a graphic SIGNALLING + DATACOMMUNICATION (110) 9 / 2018 51
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCE Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH / Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten genehmigt von DVV Media Group, 2018. bahninfrastrukturelementen in Frage kommen. Im Anschluss wur- tool. Only then can the network training and evaluation pro- de das am besten zur Aufgabenstellung passende Framework mit- cesses commence (fig. 2). Depending on the number of object tels Nutzwertanalyse ausgewählt. Dieses Framework wurde nach- classes, the number of images and the computing power of the folgend in eine selbst entwickelte Werkzeugkette für Training, hardware used, a single training run may take hours, days, or Evaluierung und Weiterverarbeitung von Objekterkennungsda- even weeks. ten eingebettet. Vereinfacht könnte man hinsichtlich der Reali- sierung neuronaler Netze zusammenfassen, dass die größte He- 4.4 Evaluation of training results rausforderung heute nicht mehr in der Entwicklung der neurona- Evaluation of training results requires different metrics. Thus, len Netze selbst, sondern in der Gestaltung und Automatisierung the recognition rate, for example, is an elementary magni- des Trainingsprozesses, der Optimierung vorhandener neuronaler tude that expresses the likelihood of the network having rec- Netze und der Beschaffung geeigneter Daten liegt. Weitere Her- ognized an object. Furthermore, the error rates for misiden- ausforderungen ergeben sich zudem in der Auswertung der Aus- tification or non-identification of objects are relevant mag- gangsinformationen eines neuronalen Netzes (Post-Processing). nitudes for network evaluation. To detect errors, a compari- son is made between the information input by humans and 4.3 Vortrainierte Netze und Trainingsprozess the information recognized by the network (primarily, object Wie bereits erwähnt existieren einige bereits vortrainierte neuro- class and position in the image). Information input by humans nale Netze für unterschiedliche Aufgabenstellungen wie die Ob- is deemed to be complete and correct. The metric Intersec- jekterkennung. Diese Netze wurden zuvor mithilfe von Bilderda- tion-over-Union (IoU), for example, indicates the overlap ra- tenbanken wie z. B. Common Objects in Context (COCO), PASCAL tio between the position of the recognized and the tagged ob- VOC oder KITTI trainiert. Da die trainierten Objektklassen wie z. B. ject. Fig. 3 explains how this metric is determined (blue boxes: Autos, Menschen oder Katzen häufig nicht für den eigenen An- tagged by humans, red boxes: network output). In addition, wendungsfall ausreichen, müssen weitere Trainings sowie ein other metrics such as average precision for all object classes Fine Tuning der Parameter stattfinden. Bevor jedoch ein Training or per object class are used to assess training progress. At the stattfinden kann, müssen zunächst über ein grafisches Werkzeug start of a training run, recognition errors will still occur quite in mehreren tausend Bildern die zu erkennenden Objekte mit ih- frequently, as the network has not yet extracted enough fea- rer Position und Objektklasse markiert werden. Erst danach kön- tures of the objects to be recognized. With each training step, nen die Prozesse zum Trainieren und zur Evaluierung des Netzes the network is given the opportunity to further optimize the gestartet werden (Bild 2). Je nach Anzahl der Objektklassen, An- learned filter parameters and thereby minimize recognition zahl der Bilder und der Leistungsfähigkeit der verwendeten Hard- errors. After many (more than often hundreds of thousands) ware kann ein einzelner Trainingsdurchlauf Stunden, Tage oder of training steps, classification and localization become in- Wochen benötigen. creasingly more precise (fig. 4), as the error rate decreases and the recognition rate increases. 4.4 Evaluierung von Trainingsergebnissen Um die Ergebnisse eines Trainings zu bewerten, werden verschie- 4.5 Overfitting dene Metriken benötigt. So ist beispielsweise die Erkennungsrate When training networks, and in addition to the procedures eine elementare Größe, die ausdrückt, mit welcher Wahrschein- described above, it is necessary to avoid the so-called overfit- lichkeit das Netz ein Objekt erkannt hat. Außerdem sind die Feh- ting. Overfitting generally refers to the situation, where a net- lerraten zur Falscherkennung oder Nichterkennung von Objekten work has too often learned from the same training data, and relevante Größen zur Bewertung des Netzes. Zur Aufdeckung von therefore has become too specialized in this data. This will Fehlern wird ein Abgleich zwischen den von Menschenhand ein- normally result in a very high recognition rate of the known gegebenen und den vom Netz erkannten Informationen durch- training images, while recognition of objects in new and un- geführt (primär Objektklasse und Position im Bild). Durch einen familiar images will be quite poor. A reliable indicator for Menschen eingegebene Informationen gelten als vollständig und overfitting is that training errors decrease while test errors in- korrekt. Die Metrik Intersection-over-Union (IoU) beispielsweise crease. Bild 2: Trainings- und Validierungsprozess Fig. 2: Training method and validation process 52 SIGNAL + DRAHT (110) 9 / 2018
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCETHEME Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH / Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten genehmigt von DVV Media Group, 2018. gibt an, wie hoch die Überdeckung zwischen der Position des er- kannten und des markierten Objekts ist. In Bild 3 wird dargelegt, wie diese Metrik ermittelt wird (blaue Boxen: von Menschenhand markiert, rote Boxen: vom Netz ausgegeben). Des Weiteren wer- den auch Metriken wie die durchschnittliche Präzision über alle Objektklassen oder pro Objektklasse beobachtet, um den Trai- ningsfortschritt einzuschätzen. Zu Beginn eines Trainings treten Fehlererkennungen noch sehr häufig auf, da durch das Netz noch nicht genügend Merkmale der zu erkennenden Objekte extra- hiert wurden. Mit jedem Trainingsschritt wird dem Netz die Chan- ce gegeben, die erlernten Filterparameter weiter zu optimieren, sodass die Erkennungsfehler minimiert werden. Nach vielen (oft mehreren hunderttausend) Trainingsschritten werden die Klassi- fizierung und Lokalisierung zunehmend präziser (Bild 4), d. h. die Bild 3: Intersection-over-Union Fehlerrate sinkt bzw. die Erkennungsrate steigt. Fig. 3: Intersection-over-Union 4.5 Overfitting Bei dem Training von Netzen ist neben den genannten Vorge- 4.6 Train-test split hensweisen zu beachten, dass kein sogenanntes Overfitting ein- To assess training success, special tests as described above are setzt. Von Overfitting spricht man im Allgemeinen, wenn ein Netz performed. To this end, the images tagged by humans are di- zu häufig aus denselben Trainingsdaten gelernt hat und damit zu vided into training sets and test sets (e. g. 70 % training im- stark auf diese spezialisiert wurde. Dies führt in aller Regel dazu, ages, 30 % test images). The training only uses test images to dass die Erkennungsrate für die bekannten Trainingsbilder sehr allow for proper assessment of the training success. This pre- hoch wird. Objekte in neuen, unbekannten Bildern werden jedoch vents the network from being tested with images it has already meist schlechter erkannt. Ein zuverlässiger Indikator für Overfit- seen during training. Subsequently, the network can be used ting ist demnach ein Sinken der Anzahl von Trainingsfehlern bei for object recognition in videos from real-world measurement gleichzeitig steigender Anzahl von Testfehlern. runs.
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCE Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH / Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten genehmigt von DVV Media Group, 2018. Bild 4: Trainingsschritte und Erkennungsrate Fig. 4: Training steps and recognition rate 4.6 Aufteilung in Trainings- und Testdaten 4.7 First results of the feasibility study Um den Trainingserfolg zu prüfen, werden wie oben beschrieben To assess feasibility, initially five object classes were defined spezielle Tests durchgeführt. Dazu werden die von Menschen- (ETCS balises, light signals, switches, contact line masts, hand markierten Bilder in Trainings- und Testdaten aufgeteilt (z. B. platform edges), which are both frequent and difficult to de- 70 % Trainingsbilder, 30 % Testbilder). Zur Prüfung des Trainings- tect (e. g. balise: easy, platform edge: difficult). Further on, erfolgs werden im Test nur Testbilder eingeben. So wird verhin- appropriate training sets were prepared, run and optimized dert, dass das Netz mit Bildern getestet wird, die es bereits im Trai- for these object classes. Although the feasibility study is not ning gesehen hat. Anschließend kann das Netz für die Objekter- yet completed (current progress: four out of five objects are kennung in realen Messfahrtenvideos eingesetzt werden. recognized), it already shows the potential for efficiency en- hancements. Even early test runs yielded high recognition 4.7 Erste Ergebnisse der Machbarkeitsstudie rates (fig. 5), which in the course of the project improved Zur Untersuchung der Machbarkeit einer automatischen Objekter- even further due to optimizations. Additional measures, such kennung mittels neuronaler Netze wurden zunächst fünf Objekt- as linking recognized information (e. g. mast sign and signal klassen festgelegt (ETCS-Balisen, Lichtsignale, Weichen, Ober- type) or using trackers to track objects, will further reduce leitungsmasten, Bahnsteigkanten), die sowohl häufig vorkom- the probability of misidentification or non-identification in men als auch unterschiedlich schwer zu erkennen sind (z. B. Ba- the future. lise: leicht, Bahnsteigkante: schwer). Für diese Klassen wurden im weiteren Verlauf entsprechende Trainingsdaten vorbereitet und 5 Possible application scenarios Trainings bzw. Optimierungen durchgeführt. Obwohl die Mach- barkeitsstudie noch nicht gänzlich abgeschlossen wurde (aktuel- In our opinion, the rail sector offers many application scenari- ler Fortschritt: vier von fünf Elementen werden erkannt), zeichnet os for the automatic recognition of image-based objects. As de- sich bereits klar ab, dass eine Anwendung zur Effizienzsteigerung scribed above, digitizing of planning documents is a conceivable möglich ist. So konnten schon in frühen Versuchen hohe Erken- scenario for the use of object recognition. In this scenario, the nungsraten erzielt werden (Bild 5), die im Projektverlauf durch sheer amount of manual work involved in digitizing can be sig- Optimierungen immer weiter verbessert wurden. Mittels zusätz- nificantly reduced by using a neural network able to detect and licher Maßnahmen, wie der Verknüpfung von erkannten Informa- then locate objects in images of the real-world environment or tionen (z. B. Mastschild und Signaltyp) oder dem Einsatz von Tra- in scanned documents. Due to the positive results of the feasibil- ckern zur Verfolgung von Objekten, wird die Wahrscheinlichkeit ity study, Signon will implement this scenario in the near future. einer Fehl- oder Nichterkennung zukünftig noch weiter gesenkt. During the first stage, however, humans still check the results of the object recognition until having sufficient data which doc- 5 Mögliche Anwendungsfälle ument recognition reliability, even under difficult conditions. Significant savings are, thus, already possible without sacrific- Für die automatische Erkennung von Objekten anhand von Bild- ing quality or confidence in the application. Another scenario daten existieren aus unserer Sicht in der Eisenbahn zahlreiche An- could be identifying changes to rail infrastructures (e. g. caused wendungsfälle. Wie eingangs beschrieben ist die Digitalisierung by damage), taking advantage of regular operations and subse- von Planunterlagen ein denkbares Szenario für den Einsatz einer quent automatic image analysis. There are many other ways of Objekterkennung. In diesem Szenario kann die schiere Menge an application in the field of automated driving and other automa- Handarbeit einer Digitalisierung durch die Nutzung eines neu- tion projects. ronalen Netzes, das Objekte in Bildern der Realumgebung oder in Scans von Plänen erkennen und anschließend verorten kann, 6. Conclusion deutlich reduziert werden. Signon wird dieses Szenario aufgrund der positiven Ergebnisse der Machbarkeitsstudie in naher Zukunft Due to the great advances in research, the number of applica- umsetzen. Im ersten Schritt wird jedoch immer noch ein Mensch tion scenarios for neural networks has exploded in recent years. die Ergebnisse der Objekterkennung überprüfen, bis ausreichend These days, not only the existence of appropriate, freely avail- 54 SIGNAL + DRAHT (110) 9 / 2018
KÜNSTLICHE INTELLIGENZ | ARTIFICIAL INTELLIGENCETHEME Homepageveröffentlichung unbefristet genehmigt für Signon Deutschland GmbH / Rechte für einzelne Downloads und Ausdrucke für Besucher der Seiten genehmigt von DVV Media Group, 2018. Bild 5: Erste Anwendungen der Objekterkennung Fig. 5: First applications of object recognition Erfahrungen hinsichtlich der Zuverlässigkeit auch unter schwieri- able technologies, but also their application maturity allow the gen Bedingungen existieren. Somit sind bereits deutliche Einspa- widespread use of neural networks in various industries. For Si- rungen möglich, ohne dabei Einbußen in der Qualität oder dem gnon Deutschland GmbH, the results of the RIMcomb research Vertrauen in die Anwendung hinnehmen zu müssen. Ein weiteres project, which, based on a prototype, examines the feasibility of Einsatzszenario könnte die Erkennung von Veränderungen an Ei- automatic object recognition by means of neural networks, are senbahninfrastrukturen (z. B. durch Beschädigung) durch die re- clear. gelmäßige Befahrung und nachfolgende automatische Bildanaly- The resulting findings will be used to digitize planning doc- se sein. Hinzu kommen viele weitere Einsatzumfelder aus dem Be- uments and to analyze infrastructure data to save cost and reich des automatischen Fahrens und anderer Automatisierungs- time. vorhaben. 6 Fazit Aufgrund der großen Fortschritte in der Forschung sind die Ein- satzmöglichkeiten neuronaler Netze in den letzten Jahren ex- plosionsartig gewachsen. Nicht nur das Vorhandensein entspre- chender, frei verfügbarer Technologien, sondern auch deren An- wendungsreife ermöglichen heute den breiten Einsatz neurona- ler Netze in unterschiedlichsten Industrien. Aus Sicht der Signon Deutschland GmbH zeigt sich dies anhand der Ergebnisse des For- AUTOREN | AUTHORS schungsprojekts RIMcomb, in dem die Machbarkeit der automati- Dipl.-Inf. (FH) Cengiz Genc schen Erkennung von Objekten mittels neuronaler Netze anhand Bereichsleiter Software / Division Manager Software eines Prototyps untersucht wird. Die entstandenen Erkenntnisse E-Mail: cengiz.genc@signon-group.com werden zukünftig in der Digitalisierung von Planunterlagen und der Analyse von Infrastrukturdaten angewendet werden, um Kos- M. Sc. Felix Harmsen Softwareingenieur / Software Engineer ten und Zeit zu sparen. E-Mail: felix.harmsen@signon-group.com M. Eng. Tobias Köhler Softwareingenieur / Software Engineer E-Mail: tobias.koehler@signon-group.com LITERATUR | LITERATURE Alle Autoren | all authors [1] nach Zeiler, M. D.; Fergus, R.: Visualizing and Understanding Convolu- Signon Deutschland GmbH tional Networks, 2013 Anschrift /Address: Schützenstraße 15-17, D-10117 Berlin SIGNALLING + DATACOMMUNICATION (110) 9 / 2018 55
Sie können auch lesen