KI-basierte Detektion von Gebäuden mittels Deep Learning und amtlichen Geodaten zur Baufallerkundung
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Fachbeitrag Roschlaub et al., KI-basierte Detektion von Gebäuden mittels Deep Learning … KI-basierte Detektion von Gebäuden mittels Deep Learning und amtlichen Geodaten zur Baufallerkundung Robert Roschlaub, Qingyu Li, Stefan Auer, Karin Möst, Clemens Glock, Michael Schmitt, Yilei Shi und Xiao Xiang Zhu Zusammenfassung 1 Einleitung Es wird ein neuartiger Ansatz vorgestellt, der auf einer Er- kennung von Gebäuden und Gebäudeveränderungen aus Mit steigender Digitalisierung sind technische Verwal- hochaufgelösten Luftbildern anhand von Künstlicher Intel- tungen zunehmend gefordert, moderne Innovationen ligenz (KI) beruht. Die zum Trainieren des KI-Systems not- aufzugreifen. Ein gutes Beispiel hierfür ist der Einsatz wendigen Datenbestände sind die Gebäudeumrisse aus der von Künstlicher Intelligenz (KI), die im Rahmen einer amtlichen Digitalen Flurkarte (DFK) und das lagerichtige Forschungskooperation der Bayerischen Vermessungs- Digitale Orthophoto (TrueDOP). Die semantische Detektion verwaltung mit der TUM erstmalig auf die Baufallerkun- der Gebäude und Gebäudeveränderungen erfolgt über op- dung angewendet wurde. tische Aufnahmen und Oberflächenmodelle, wie dem nor- Die an den Ämtern für Digitalisierung, Breitband und malisierten Oberflächenmodell (nDOM) und einem aus der Vermessung (ÄDBV) durchgeführte Baufallerkundung Differenz von zwei Zeitepochen abgeleiteten Oberflächen- dient zur Aktualisierung der Gebäude im amtlichen Lie- modell (tDOM). genschaftskataster. Gebäude werden von den ÄDBV mit Am Beispiel der Baufallerkundung werden die Ergebnisse einer Katastergenauigkeit im Bereich von wenigen Zenti- einer aktuellen Forschungskooperation zwischen der Baye- metern eingemessen und als Gebäudegrundrisse in der rischen Vermessungsverwaltung (BVV) und der Technischen amtlichen Digitalen Flurkarte (DFK) dargestellt. Universität München (TUM) aufgezeigt und bestehenden Ver- Zur Fortführung des Liegenschaftskatasters gehört in fahrenslösungen gegenübergestellt. Die vorgestellte KI-ba- Bayern die Erfassung von Altbau- und Neubaufällen. sierte Verfahrenslösung ist grundsätzlich auf alle Vermes- Altbaufälle sind Gebäude, die teilweise schon vor Jahren sungsverwaltungen der Länder bundesweit übertragbar. errichtet, aber nie katastertechnisch erfasst wurden und für die in der Regel keine Gebühren für die Gebäudeein- Summary messung mehr erhoben werden. Neubaufälle sind Gebäu- A novel approach is introduced which is based on the detec- de, die seit Kurzem erst errichtet, aber katastertechnisch tion of buildings and building changes from high-resolution von den ÄDBV noch nicht gebührenpflichtig eingemes- aerial images using artificial intelligence (AI). The data sets sen sind. Daher fehlt sowohl für die Altbau- als auch für necessary for training the AI system are the building out- die Neubaufälle der Nachweis der Gebäudegrundrisse in lines from the official Digital Cadastre Map (DFK) and Digital der DFK. Orthophotos without building lean (TrueDOP). The seman- Zur Baufallerkundung stehen in Bayern am Landesamt tic detection of the buildings and building changes is car- für Digitalisierung, Breitband und Vermessung (LDBV) ried out based on optical images and digital surface models, vielfältige qualitätsgesicherte Geobasisdaten zur Verfü- such as the normalized digital surface model (nDOM) and a gung. Diese Daten werden auf gesetzlicher Grundlage Temporal Digital Surface Model (tDOM) derived from the aufgaben- und maßstabsbezogen erfasst. Hierzu zählen difference of two time epochs. z. B. das aus dem Airborne Laserscanning abgeleitete und The results of the current cooperation between the Bavar- bayernweit in einer Gitterweite von 1 m verfügbare Di- ian Agency for Digitisation, High-Speed Internet and Sur- gitale Geländemodell (DGM) sowie die als Bayernbeflie- veying (BVV) and the Technical University of Munich (TUM) gung bekannte und seit dem Jahr 2017 in einem Zwei on the detection of buildings and building changes are pre- jahreszyklus durchgeführte Digitale Luftbildbefliegung. sented and compared with results derived from existing Sie wird in einer Bodenauflösung von 20 cm sowie einer approaches. The presented AI-based solution is basically Längsüberdeckung von 80 % und einer Querüberdeckung transferable to all surveying administrations of the federal von 50 % beflogen. Aus den digitalen Luftbildern wird states nationwide. mittels Dense Image Matching (Haala 2011) ein bild- basiertes Digitales Oberflächenmodell (bDOM) in Form Schlüsselwörter: Gebäudedetektion, Semantische Segmen- eines regelmäßigen Gitters mit Höhen und Rot-Grün- tierung, Deep Learning, DOM, Datenfusionierung Blau (RGB)-Farben abgeleitet (Hirschmüller 2011), das seit dem Jahr 2016 für Bayern flächendeckend zur Ver- fügung steht. Die Farbe wird für jeden dreidimensionalen Gitterpunkt des bDOM mittels Kollinearitätsgleichung 180 zfv 3/2020 145. Jg. © Wißner-Verlag DOI 10.12902/zfv-0299-2020
Roschlaub et al., KI-basierte Detektion von Gebäuden mittels Deep Learning … Fachbeitrag aus dem Luftbild entnommen. Durch eine Parallelprojek- tion des bDOM in die Ebene erhält man das TrueDOP, d. h. durch das Weglassen der Höheninformation im bDOM. Das TrueDOP ist ein Digitales Orthophoto, das frei ist von Umklappeffekten bei hohen Gebäuden und Objekten. Zur Identifizierung von Altbaufällen eignet sich in be- sonderer Weise das normalisierte Digitale Oberflächen- modell (nDOM), das aus der Differenz zwischen dem bDOM und dem aus Airborne Laserscanning abgeleiteten DGM berechnet wird. Höheninformationen von Fahrzeu- gen und Containern, Aufschüttungen und Abgrabungen sowie der Vegetation können über Mindesthöhen und Mindestdimensionen aus dem nDOM herausgefiltert wer- den (Geßler et al. 2019). Vereinzelte Vegetationsreste blei- ben jedoch im nDOM erhalten (vgl. Abb. 1). Das nDOM enthält die Höheninformationen sämtlich bestehender Gebäude, unabhängig davon, ob sie bereits im Liegen- schaftskataster dokumentiert sind – also auch sämtliche Alt- und Neubaufälle. Zudem können Neubaufälle, die von den ÄDBV noch nicht eingemessen wurden und da- Abb. 1: Überlagerung der DFK mit dem blauen nDOM zur mit nicht in der DFK dokumentiert sind, mit Hilfe eines Identifizierung von Altbaufällen (oben) und dem roten aus zwei bDOM-Epochen der Bayernbefliegung abge- tDOM zur Identifizierung von Neubaufällen (unten) leiteten Differenzmodells (tDOM) identifiziert werden. Ebenso lassen sich die im Liegenschaftskataster undo- 3. Unter Verwendung eines einzigen optimierten DL‑Net- kumentierten Abrisse von Gebäuden im tDOM über eine zes, das mit Daten aus 14 Vermessungsamtsbezirken negative Höhenänderung identifizieren. trainiert wurde – dies entspricht einem Viertel des Ge- In jüngster Zeit werden in der Fernerkundung Deep biets von Bayern –, wird eine Karte mit markierten Learning Methoden (DL) bevorzugt (Zhu et al. 2017), ins- Neu- und Altbaufällen generiert. Die mittels DL‑Me- besondere auch für die Aufgabe der Klassifikation von thoden erzielten Ergebnisse zeigen eine robuste Identi- Fernerkundungsdaten (Shi et al. 2018). Dies ist auf ihre fizierung von Alt- und Neubaufällen im Zielmaßstab Überlegenheit in der Verallgemeinerung und Erken- der DFK. nungsgenauigkeit zurückzuführen, ohne dass manuell 4. Die Validierung der erzielten Gebäudeerkennungsrate oder interaktiv eingegriffen werden muss. DL‑Methoden wird in einem weiteren, vom Trainingsdatensatz un- erfordern Trainingsdaten, die in einem bestimmten Ge- abhängigen Vermessungsamtsbezirk sowohl für die biet den Charakteristiken der zu klassifizierenden Objekte DL‑Methode als auch für zwei am LDBV bestehende entsprechen. Das trainierte DL‑System kann anschlie- Verfahrenslösungen anhand der in der DFK bekannten ßend zur Detektion von Objekten auf andere Gebiete Anzahl an Gebäuden bestimmt und einem traditio- übertragen werden. nellen statistischen Vergleichswert (dem sogenannten Im Folgenden wird ein Verfahren zur Baufallerkun- »F1 score«) gegenübergestellt. dung durch eine Datenfusionierung der verschiedenen Datenbestände und den Einsatz Künstlicher Intelligenz Die zwei derzeit am LDBV angewandten Strategien zur erläutert. In diesem Beitrag werden vier Schwerpunkte Detektion von Neubaufällen sind das Filterverfahren und gesetzt: das Vergleichsklassenverfahren. Beide Verfahren basieren 1. Um für DL‑Methoden sinnvolle Stichprobenstrategien auf heuristischen Methoden (Geßler et al. 2019, Roschlaub für großräumige Gebäudeerkennungsaufgaben an- et al. 2020). Beim Filterverfahren werden verschiedene bieten zu können, wird die Frage der Übertragbarkeit Filter auf das tDOM angewandt, um Fehldetektionen von untersucht, indem amtliche Referenzdaten ausgewähl- nicht vorhandenen Baufällen zu minimieren, die auf- ter Landkreise verwendet werden. grund des Höhenrauschens des tDOM verursacht werden 2. In diesem Zusammenhang wird ein Verfahrensablauf können oder durch eine Höhenänderung, die nicht ur- zur Detektion von Alt- und Neubaufällen vorgeschla- sächlich aus der Bebauungssituation entstanden ist. An- gen, der die modernsten DL‑Methoden integriert und schließend erfolgt eine Prozessierung des tDOM, die sich die amtlichen Geodaten wie Gebäudegrundrisse aus auf die Höhenänderungen, RGB-Farbinformationen, den der DFK, das nDOM und TrueDOP nutzt. Es werden Vegetationsindex und geometrische Filter stützt (Geßler DL‑Methoden implementiert, um durch einen Ver- et al. 2019). Beim Vergleichsklassenverfahren werden aus gleich mit der aktuellen DFK undokumentierte Gebäu- den Gebäudegrundrissen der DFK im TrueDOP die RGB- de zu identifizieren. Farbwerte aller Pixel der entsprechenden Gebäudedächer © Wißner-Verlag 145. Jg. 3/2020 zfv 181
Fachbeitrag Roschlaub et al., KI-basierte Detektion von Gebäuden mittels Deep Learning … als Referenz gesammelt (Roschlaub et al. 2020). Dann geringe Anzahl an Fehlalarmen führt zu einer spürbar werden die Farbwerte und deren Häufigkeit im RGB- einfacheren Verwertung des Ergebnisses am LDBV und Farbwürfel gezählt, um Gebäude von der Vegetation an den Vermessungsämtern. durch einen empirisch gewählten Schwellenwert zu tren- Im nächsten Abschnitt werden zunächst die DL‑Netz- nen. Mit Hilfe des nDOM werden zusätzlich Fehlklassi- werkarchitektur und der vorgeschlagene Entscheidungs- fikationen zwischen Gebäuden und anderen Objekten baum für die Erkennung von Altbaufällen erläutert und wie Straßen durch einen empirisch ermittelten Höhen- der Versuchsaufbau beschrieben. In Abschnitt 3 erfolgen schwellenwert vermieden. Da die heuristische Definition die Validierung der KI‑Ergebnisse und ein Vergleich mit von Schwellenwerten jedoch nicht standardisiert ist, bestehenden Verfahrenslösungen. Daran schließt sich am müssen diese für verschiedene Fluglose individuell be- Ende die Diskussion der Ergebnisse an. stimmt werden, sodass größere Gebiete nicht einheitlich und standardisiert prozessiert werden können. Zudem verfälschen Bäume, die über die Dächer ragen und somit im Gebäudegrundriss liegen, die Referenz für Dächer im 2 Verfahrenslösung RGB-Farbwürfel, sodass im Rahmen der Gebäudeerken- nung einige Bäume als Gebäude klassifiziert werden. Die Detektion von Gebäuden stellt eine Aufgabe dar, bei Der vorgeschlagene Ansatz über die Verwendung von der für jedes aus mehreren Bildpixeln bestehende Seg- Neuronalen Netzen zielt darauf ab, eine hohe Erken- ment zwei Klassen zu unterscheiden sind: »Gebäude« und nungsleistung zu erreichen, bei einer gleichzeitig gerin- »kein Gebäude«. Ansätze über faltungsbasierte Neuronale gen Anzahl von falschen Hinweisen. Eine hohe Erken- Netze (Convolutional Neural Networks) stellen für Aufga- nungsrate führt zu einer zuverlässigen und verbesserten ben dieser Art den Stand der Technik dar und liefern Er- Identifikation von fehlenden Gebäuden in der DFK. Eine gebnisse mit höherer Genauigkeit und besserer Effizienz Abb. 2: Netzwerkarchitektur (FC-DenseNet). Die Integration von Dense Blocks dient dem verbesserten Informationsfluss im Netzwerk. 182 zfv 3/2020 145. Jg. © Wißner-Verlag
Roschlaub et al., KI-basierte Detektion von Gebäuden mittels Deep Learning … Fachbeitrag als bislang verwendete Verfahren wie »Random Forest« nungsmerkmale beruhen hierbei auf den optischen oder »Support Vector Machines«. Bildkanälen (Rot, Grün, Blau) und geometrischen Ober- Die Netzwerkarchitektur FC‑DenseNet (Jégou et al. flächenmodellen. 2017) hat sich im Vergleich zu alternativen Netzwerk- Das gewählte neuronale Netz FC‑DenseNet (siehe architekturen als sehr geeignet für Detektionsaufgaben Abb. 2) folgt den Grundprinzipien von »Convolutional für städtische Szenen erwiesen. Hierbei sind vor allem Neural Networks« und weist dabei die charakteristischen eine höhere Erkennungsleistung (Li et al. 2018) und eine Merkmale eines sogenannten U‑Netzes auf: verbesserte Extraktion von Merkmalen (Shi et al. 2020) p Faltung mit Filtermatrizen zur Hervorhebung von re- zu nennen. levanten Merkmalen, p Reduzierung der Abtastung zur Vergrößerung des Aus- wertebereichs auf der linken Seite (mit Max-Pooling), 2.1 Ansatz für Gebäudedetektion p Erhöhung der Abtastung für den Rückerhalt der origi- nalen Bildauflösung auf der rechten Seite, Der Ansatz für die Gebäudedetektion beruht auf dem p Verwendung einer Aktivierungsfunktion für die Nach- Prinzip von »Convolutional Neural Networks (CNN)«, bildung von Nichtlinearitäten, d. h. Neuronalen Netzen mit einer Abfolge von Filterope- p Sprungverbindungen (»Skip Connections«) für den Er- rationen und nichtlinearen Projektionen. Eingangsdaten halt von hoher räumlicher Auflösung, werden in aufeinanderfolgenden Schichten gefiltert (Li- p Abgleich von Ergebnissen mit Referenzdaten anhand nearkombination mit Filtermatrizen), wodurch repräsen- einer Verlustfunktion und tative Merkmale von gesuchten Datenkomponenten ver- p iterative Anpassung der Einträge in den Filtermatrizen stärkt werden. Die Einträge in den Filtermatrizen werden im Rahmen des Lernprozesses. dafür mit Trainingsdaten gelernt, um die Erkennungs- leistung des Netzwerkes zu optimieren. Das Ergebnis der Darüber hinaus beinhaltet das Netzwerk sogenannte Filteroperationen geht darüber hinaus in nicht lineare »Dense Blocks«, in denen Bildausschnitte an Faltungs- Aktivierungsfunktionen ein. Dadurch verbessert sich die operationen vorbeigeschleust werden, wodurch der In- Voraussetzung für eine erfolgreiche Trennung von Da formationsfluss und Lernprozess im Netzwerk verbessert tenkomponenten in einem neuen Merkmalsraum. wirken kann. Der Gebäudedetektor bildet das Kernstück Im vorliegenden Fall besteht die Aufgabe des Netz- des Entscheidungsbaums zur Unterscheidung von undo- werks in der Erkennung von Gebäuden in hochaufge- kumentierten Gebäuden (Altbau- und Neubaufälle; siehe lösten Bilddaten und Oberflächenmodellen. Die Erken Abb. 3). tDOM nDOM TrueDOP DFK Schwellwert: 1,8 m Schwellwert: 1,8 m Deep-Learning Methode: FC-DenseNet Keine Abweichung kein Gebäude Gebäude Kein Gebäude Gebäude Abweichung Undokumentiertes Gebäude Neubaufall Altbaufall Abb. 3: KI-Entscheidungsbaum zur Identifizierung von Alt- und Neubaufällen (Anm.: Der Entscheidungsbaum enthält derzeit noch keine Identifizierung von Gebäudeaufstockungen. Hierzu müssten die im tDOM bestehenden Höhen- änderungen größer des gesetzten Schwellenwertes von 1,8 m mit dem Gebäude der DFK zusätzlich verbunden werden.) © Wißner-Verlag 145. Jg. 3/2020 zfv 183
Fachbeitrag Roschlaub et al., KI-basierte Detektion von Gebäuden mittels Deep Learning … 2.2 Entscheidungsbaum für die Erkennung 2.3 Datenaufbereitung und experimentelle undokumentierter Gebäude Umsetzung Die Erkennung von Gebäuden anhand des Neuronalen Die in dieser Studie verwendeten Datensätze bestehen aus Netzes erfolgt mit Hilfe von optischen Bilddaten und TrueDOP, nDOM, tDOM und der DFK. Zunächst werden dem nDOM (siehe Abb. 2). Für die Erkennung von un- für alle 15 Vermessungsbezirke die TrueDOP und nDOM dokumentierten Gebäuden wird das Detektionsergebnis Kacheln ausgewählt, die innerhalb der Bezirksgrenzen in einen Entscheidungsbaum (siehe Abb. 3) eingebunden, liegen. Dabei werden das tDOM, nDOM und das TrueDOP der eine weitere Kategorisierung ermöglicht. Zunächst als Rasterdaten in eine Größe von 2500 × 2500 Pixel ge- werden die erkannten Gebäudeflächen mit der DFK-In- kachelt, mit einer räumlichen Auflösung von 0,4 m, wäh- formation (Rasterformat) überlagert für die Identifikation rend die DFK als Vektordatei bereitsteht. Die DFK wird von allen undokumentierten Gebäuden. Die Gebäude- innerhalb des Geobereichs der Bildkacheln beschnitten. flächen werden im zweiten Schritt mit Informationen Dann wird die Vektorinformation der DFK in ein Raster- des tDOM verschnitten, in dem neu gebaute Gebäude format umgewandelt. Das TrueDOP, das nDOM und die ein zeitliches Signal hinterlassen haben. Zur Trennung DFK als Bodenreferenz werden in Ausschnitte mit der der undokumentierten Gebäude in Alt- und Neubaufälle Größe von 256 × 256 Pixel geschnitten, mit einer Über- wird ein konstanter Schwellenwert (Höhenveränderung lappung von 124 Pixel zum nächsten benachbarten Aus- von 1,8 m) für das tDOM in einer räumlichen Auflösung schnitt. Da nicht alle Gebäude in der DFK dokumentiert von 0,4 m verwendet. Somit spaltet sich die Menge al- sind, gibt es Inkonsistenzen zwischen TrueDOP, nDOM ler undokumentierten Gebäude in alte undokumentier- und der DFK, wenn die DFK als Bodenreferenz für das te Gebäude (Signal in nDOM, kein Signal in tDOM) und Trainieren des Neuronalen Netzes verwendet wird. Die neue undokumentierte Gebäude (Signal in nDOM und Auswirkungen sind jedoch unbedeutend angesichts der tDOM) auf. Größe des Trainingsdatensatzes. Die Gebäudesegmente der beiden Kategorien werden Das FC‑DenseNet ist in der Softwareumgebung Py- am Ende in Polygone umgewandelt und als Shape-Datei torch implementiert und arbeitet mit einem NVIDIA gespeichert. Tesla P100-Grafikprozessor mit 16 GB Arbeitsspeicher. Das Training des Netzwerks durch den fortlaufenden Abgleich mit Referenzdaten beruht auf einem Stochas- tic Gradient Descent Verfahren für die Optimierung der Lösung. Die Verlustfunktion beruht auf dem Tab. 1: Anzahl der Bildausschnitte für Training und Validierung Maß der Kreuzentropie (Maß für die Passung Anzahl von des Modells an die Referenzinformation), Trai- niertes Bildausschnitten für die Anzahl der Referenzbildpaare pro Opti- Modell Vermessungsbezirk Training Validierung mierungsschritt beträgt 5. Das FC‑DenseNet arbeitet mit 12 Blöcken (Dense Blocks) und 1 Ansbach 67.965 18.077 5 zusätzlichen Schichten, in denen Bildaus- 2 Ansbach 67.965 18.077 schnitte gefaltet werden. Die Aufgabenstellung ist auf eine späte- Bad Tölz-Wolfratshausen 14.982 3.671 re operationelle Verwendung des Verfahrens Kulmbach 24.998 5.679 ausgerichtet. In diesem Zusammenhang ist es wertvoll, die Zusammenstellung und Aus- Kulmbach-Kronach 19.987 5.112 wirkung der Trainingsdaten zu betrachten. Landau 34.964 8.733 Dazu werden zwei separate Netzwerke mit verschiedenen Datensätzen trainiert, um ins- Landau-Deggendorf 38.454 9.763 besondere Aspekte der Übertragbarkeit prü- Landshut 60.957 15.090 fen zu können. Im ersten Fall stammen die Trainingsdaten aus dem Bezirk Ansbach, München 88.364 22.213 im zweiten Fall wurden Trainingsdaten aus Regensburg 47.947 11.941 14 Vermessungsbezirken verwendet. Die An- zahl der Trainings- und Validierungsaus- Regensburg-Hemau 9.481 2.243 schnitte ist in Tab. 1 zusammengefasst, deren Rosenheim 59.141 14.789 Verhältnis sich auf ca. 80 % zu 20 % beläuft. Die beiden trainierten Modelle wurden für Rosenheim-Wasserburg 14.150 3.567 die Gebäudedetektion in zwei Vermessungs- Schweinfurt 54.951 13.759 bezirken (Ansbach, Bad Tölz-Wolfratshausen) eingesetzt und anschließend validiert (siehe Weilheim 76.959 19.202 Ergebnisse im Abschnitt 3). 184 zfv 3/2020 145. Jg. © Wißner-Verlag
Roschlaub et al., KI-basierte Detektion von Gebäuden mittels Deep Learning … Fachbeitrag 3 Validierung der Ergebnisse ein Testgebiet in Ansbach ist. Für das unabhängige Test- gebiet Bad Tölz-Wolfratshausen ergibt die Verwendung 3.1 Validierung auf Pixelebene des größeren Trainingsdatensatzes aus den 14 Vermes- sungsbezirken eine Verbesserung der Gebäudedetektion Die Bewertung der Ergebnisse der beiden trainierten (d. h. ein Unterschied von 12,6 % beim »F1 score« und Netzwerke für die Gebäudedetektion aus dem DL‑Schritt von 17,5 % beim IOU-Wert, siehe Tab. 3). Die Trainings- erfolgt anhand der DFK für das Testgebiet Ansbach und daten des umfassenderen Modells bestehend aus den Bad Tölz-Wolfratshausen als Referenzinformation. Diese 14 Vermessungsamtsbezirken bilden die Variabilität des wird in ein Rasterformat umgewandelt, mit dem Ergebnis Erscheinungsbilds von Gebäuden im Vermessungsbezirk überlagert und pixelbasiert verglichen. Im Idealfall müss- Bad Tölz-Wolfratshausen deutlich besser ab. te der KI‑basierte Gebäudedetektor sämtliche Gebäude- flächen der DFK erkennen. Zwei traditionellen Qualitätsmaße sind hierbei von be- 3.2 Validierung für Gebäudeinstanzen sonderem Interesse: der »F1 score« und die Maßeinheit »Intersection-over-Union (IOU)«, welche die räumliche Die Gebäudedetektion mittels KI liefert unscharfe Ge- Überlagerung zwischen dem Detektionsergebnis und der bäudepolygone auf Rasterebene, ohne einen kataster- Referenz bemisst. technischen Bezug zu bestehenden Grundstücksgrenzen Der »F1 score« berechnet sich durch zu haben, wie es typischerweise bei Reihenhäusern der Fall ist. Im TrueDOP werden Reihenhäuser über die ge- TP precision = samte Dachfläche als ein Gebäude erkannt. Entsprechend TP + FP können Reihenhäuser von bildbasierten Detektionsver- TP fahren nur als ein eigenständiges Gebäude erkannt wer- recall = TP + FN den, unabhängig von ihrer rechtlichen Trennung durch 2 × precision × recall amtliche Grundstücksgrenzen. Zur Ermittlung, ob ein F1 score = precision + recall Gebäudegrundriss in der DFK erkannt wurde, werden die KI‑Ergebnisse des Gebäudedetektors mit jedem einzelnen wobei die Maße »Precision« die Richtigkeit und »Recall« Gebäudegrundriss der DFK verschnitten – bei Reihenhäu- die Vollständigkeit des Erkennungsergebnisses erfassen. sern also mit jedem einzelnen Reihenhaus der gesamten In den Gleichungen bezeichnet TP die Anzahl der rich- Reihenhauszeile. Zur qualitativen Bewertung der Gebäu- tig erkannten Gebäudepixel, FP die fälschlicherweise als deerkennung im aktuellen Gebäudebestand wird für jedes Gebäude detektierten Pixel und FN die nicht erkannten einzelne Gebäude der DFK der prozentuale Flächenanteil Gebäudepixel. aus der Überdeckung der KI‑basierten Gebäudedetektion Das Maß IOU beschreibt das Verhältnis zwischen dem zur amtlichen Gebäudegrundrissfläche ermittelt. Dabei Überlappungsbereich (»Area of Overlap«) und Vereini- sind verschiedene prozentuale Abstufungen vorgenom- gungsbereich (»Area of Union«) zwischen dem Detek- men worden. Ein Gebäude wird als erkannt eingestuft, tionsergebnis und der Referenz. Keine Überlappung führt wenn mehr als 20 % des Gebäudegrundrisses in der DFK demzufolge zum Wert 0, eine vollständige Übereinstim- von Pixeln des mittels KI ermittelten Gebäudepolygons mung zum Wert 1. überdeckt sind (vgl. Abb. 4). Kleinere Gebäude sind von In den Ergebnissen (siehe Tab. 2 und Tab. 3) zeigt sich, Detektionsverfahren nur schwer zu erkennen, daher wird dass der kleinere Trainingsdatensatz aus Ansbach aus- eine Überdeckungsrate von mehr als 20 % für ein er- reichend repräsentativ für die Gebäudeerkennung für kanntes Gebäude als ausreichend angesehen. Je höher der Prozentsatz ist, desto vollständiger ist die Gebäude- Tab. 2: Erkennungsgenauigkeit der trainierten Gebäude erkennung. Altbau- und Neubaufälle sind von diesem detektoren für das Testgebiet Ansbach Verfahren ausgenommen, da für diese Gebäude keine Ge- bäudegrundrisse in der DFK vorliegen. Trainiertes Modell F1 score IOU 1 90,5 % 82,7 % 3.2.1 Vergleich zwischen den Landkreisen Ansbach und Bad Tölz 2 90,3 % 82,3 % Mit Beschränkung auf die Trainingsdaten für ¼ Bayerns Tab. 3: Erkennungsgenauigkeit der trainierten Gebäude ergeben sich im Testgebiet von Ansbach, das mit einem detektoren für das Testgebiet Bad Tölz-Wolfratshausen Flächenanteil von 20 % nicht im Trainingsdatensatz ent- halten war, ein »F1 score« in Höhe von 90,3 % für die Trainiertes Modell F1 score IOU pixelbasierte Validierung und eine Erkennungsrate von 1 73,9 % 58,7 % 88,7 % über die Verifikation mittels der Gebäudeinstan- zen in der DFK. Die Differenz der beiden Werte beträgt 2 86,5 % 76,2 % nur 1,6 %. © Wißner-Verlag 145. Jg. 3/2020 zfv 185
Fachbeitrag Roschlaub et al., KI-basierte Detektion von Gebäuden mittels Deep Learning … a) b) Abb. 4: Auf der DFK überlagertes Ergebnis der KI‑basierten Gebäudedetektion (oben) und gebäudescharfe Klassi- fizierung der Überdeckungs- rate der KI‑basierten Gebäudedetektion (unten); die in der Legende in den eckigen Klammern stehenden Zahlen repräsentieren die Anzahl der zugeordneten Gebäude je Klasse. c) Abb. 5: Überlagerte DFK mit Gebäudedetektoren (rosa In ähnlicher Größenordnung liegt der Unterschied bzw. magenta Flächen) nach dem Filterverfahren (a), in dem vom KI‑Trainingsdatensatz nicht mittrainierten dem Vergleichsklassenverfahren (b) und dem KI‑Ver 20 % des Vermessungsamtsbezirks Bad Tölz-Wolfrats- fahren (c) hausen. Mit den Erkennungsraten für die KI‑Lösung von 86,5 % und 83,0 % für die DFK-Verifikation ergibt sich Hatte das Vergleichsklassenverfahren mit 93,7 % die eine Differenz von 3,5 %. Damit ist der empirische Nach- höchste Erkennungsrate gegenüber dem Filter- und weis erbracht, dass die über KI ermittelten Erkennungs- KI‑Verfahren, so kehrt sich das Ranking mit Verwendung raten (»F1 score«) robust und vertrauenswürdig sind. des »F1 score« genau um und KI überflügelt deutlich die anderen Verfahren, bei dem das Vergleichsklassenverfah- 3.2.2 Vergleich der Gebäudedetektoren aus ren schließlich am schlechtesten abschneidet. Damit ist unterschiedlichen Verfahren nachgewiesen, dass im Vergleich der untersuchten Ge- bäudedetektoren eine sichere Gebäudeerkennung bzw. In gleicher Weise lassen sich die Erkennungsraten für das Filter- und das Vergleichsklassenverfahren durch eine Tab. 4: Vergleich der Gebäudedetektoren anhand des Flächenverschneidung bestimmen. Die Erkennungsraten »F1 score« für ein 40 km2 großes Testgebiet in Bad Tölz- der Gebäudedetektoren liegen in einem 40 km2 großen Wolfratshausen Testgebiet von Bad Tölz-Wolfratshausen für das Filter- Erkennungsrate via F1 score verfahren bei 81,9 % und für das Vergleichsklassenver- Gebäudeinstanzen der flächen- fahren bei 93,7 %. Das entspricht gegenüber der mittels DFK für ca. 40 km2 förmig KI erzielten 85,9 % zwar einer höheren Erkennungsrate für Gebäude, jedoch sind die Fehldetektionen von Ve- KI mit ¼ Bayerns 85,9 % 85,1 % getation als Gebäude in diesen beiden Ansätzen ohne als Trainingsdaten KI deutlich höher (vgl. Abb. 5). Eine qualitative Bewer- Filterverfahren 81,9 % 69,3 % tung der Gebäudedetektoren ist daher allein anhand der Vergleichsklassen- 93,7 % 37,9 % Anzahl der richtig erkannten DFK-Gebäude nicht aus- verfahren reichend. Tab. 4 gibt diesen Sachverhalt deutlich wieder. 186 zfv 3/2020 145. Jg. © Wißner-Verlag
Roschlaub et al., KI-basierte Detektion von Gebäuden mittels Deep Learning … Fachbeitrag eine sichere Trennung der im nDOM verbliebenen Vege- tation nur mit KI möglich ist. Der »F1 score« ist als Vergleichsmaß hier deutlich objektiver, da er auch die Fehldetektionen einschließt. Der »F1 score« wurde im vorliegenden Fall anhand der Shape-Dateien der Gebäudedetektoren durch Verschnei- dung mit den Gebäuden in der DFK ermittelt. 3.3 Detektion von Neubau- und Altbaufällen a) An den ÄDBV sind im operativen Betrieb möglichst feh- lerfreie Hinweise über mögliche Altbau- bzw. Neubaufäl- le für eine wirtschaftliche Durchmusterung der TrueDOP unter Einbeziehung der aktuellen DFK erforderlich, um zuverlässig entscheiden zu können, ob im Fall von Neubaufällen Gebäude durch Messtrupps vor Ort ein- zumessen sind oder die abgerissenen Gebäude aus dem amtlichen Liegenschaftskataster bzw. der DFK gelöscht werden müssen. Eine sichere und möglichst vollständige b) Gebäudedetektion ist dafür maßgebend. Mit Blick auf die in Abb. 5 visualisierten Ergebnisse der unterschiedlichen Gebäudedetektoren scheidet das Vergleichsklassenver- fahren wegen der umfangreichen Fehldetektionen für die Ermittlung von Neu- und Altbaufällen aus. Die Gebäudedetektion des Filterverfahrens (via LAStools) nutzt nicht die DFK. Ebenso werden Neubau- fälle bei diesem Verfahren lediglich aus dem tDOM ermit- telt. Die DFK kann daher zur Überprüfung der erzielten Gebäudedetektion genutzt werden. Die mit Hilfe des Fil- c) terverfahrens erzielte Gebäudedetektion wurde mit dem in der DFK erfassten Gebäudebestand und den an den ÄDBV vorliegenden Änderungshinweisen vom ADBV vi- suell durchmustert. Einige der durch das Filterverfahren nicht erkannten Gebäude der DFK sind durch Kreise ge- kennzeichnet und die ermittelten Neubauten in Rot dar- gestellt (vgl. Abb. 6a). Im Vergleich zum Ausgangsbild des TrueDOP zeigt sich, dass die nicht erkannten Ge- bäude entweder unter einer dichten Vegetation von Bäu- men liegen, sich im Schatten befinden oder sehr helle d) bis weiße Dächer haben. Derartige Objekte können im Abb. 6: a) Mit dem Filterverfahren ermittelte Gebäude- TrueDOP nicht erkannt werden – dies gilt sowohl für die detektion auf dem Hintergrund der DFK mit rot gekenn- visuelle Durchmusterung durch Mitarbeiter an den ÄDBV zeichneten Gebäudeneubauten und Hinweiskreisen des als auch für sämtliche Detektionsverfahren wie KI oder ADBV über nicht erkannte Gebäude. b) Gebäudedetektion das Filterverfahren. Diese nicht erkennbaren Gebäude ohne DFK. c) klassifizierte Gebäudedetektion des Filterver- bestimmen den Bodensatz an Fehlern in der Gebäude- fahrens. d) klassifizierter KI‑Gebäudedetektor mit Hinwei- detektion und ließen sich nur durch eine vollständige sen zu Neu- (rote) und Altbaufällen (grün). Vor-Ort-Erkundung durch die Messtrupps an den ÄDBV vermeiden. Die Praxis hat in der Vergangenheit aber ge- das Filterverfahren teilweise mehr Neubauten gegenüber zeigt, dass eine vollständige Erfassung durch die ÄDBV KI detektiert. Dies kann unter anderem darin begründet kaum gewährleistet werden kann. Daher sind alternative sein, dass über das Filterverfahren zusätzlich Änderun- Methoden erforderlich geworden, die, wie Abb. 6a zeigt, gen in der Gebäudehöhe wie Gebäudeaufstockungen als ebenfalls keine hundertprozentige Erfassungssicherheit Neubauten identifiziert werden, während Änderungen geben können. in der Gebäudehöhe bei KI‑Verfahren unberücksichtigt Ein Vergleich der mittels des Filter- und des KI‑Ver- bleiben. Es wäre jedoch wünschenswert, in weiteren fahrens ermittelten Neubaufälle (vgl. rote Gebäude in den Untersuchungen auch Höhenänderungen zusätzlich in Abbildungen Abb. 6c und Abb. 6d) veranschaulicht, dass den KI‑Entscheidungsbaum zu implementieren. Derzeit © Wißner-Verlag 145. Jg. 3/2020 zfv 187
Fachbeitrag Roschlaub et al., KI-basierte Detektion von Gebäuden mittels Deep Learning … erden mit KI die Altbaufälle sicher detektiert, ohne dass w Auch in den anderen in Abb. 6c und Abb. 6d in Rot offensichtliche Fehlalarme auftreten (vgl. grüne Gebäude dargestellten Neubaufällen ergeben sich verfahrensbe- in Abb. 6d). dingte Unterschiede. Der Vergleich der beiden in Abb. 7 Im Gegensatz zum Entscheidungsbaum des KI‑ba- dargestellten TrueDOP-Epochen für die in Abb. 6c aus- sierten Verfahrens (siehe 2.2) nutzt das Filterverfahren gewiesenen Neubaufälle zeigt, dass Gebäude neu errich- keine DFK, sondern verwendet ausschließlich das tDOM tet oder abgerissen und an derselben Stelle neu überbaut zur Identifizierung von Neubaufällen. Daher ergeben sich wurden und dass diese in beiden Verfahren als Neubau- Unterschiede zwischen den in Rot dargestellten Neubau- fälle richtig erkannt werden. fällen, wie sie über das Filterverfahren ermittelt wurden Das KI‑Verfahren weist gegenüber dem Filterverfahren (vgl. Abb. 6c), und den über die KI‑Methode ermittelten durch die Verwendung der aktuellen DFK die exakteren Neubaufällen (vgl. Abb. 6d). Das Filterverfahren identi- Hinweise zu Neubaufällen aus und ist daher dem Filter- fiziert das rechte große rote Gebäude in Abb. 6c voll- verfahren vorzuziehen. ständig als Neubau, während in Abb. 6d mittels KI nur die Überdachungen der Gebäude als Neubaufälle identi- fiziert. Der Vergleich des in Abb. 7 dargestellten TrueDOP 4 Zusammenfassung und Ausblick aus der aktuellen Epoche 2018 mit dem aus der vor- hergehenden Befliegung im Jahr 2015 zeigt, dass die Mit dem vorgestellten neuartigen Ansatz können mit Schlussfolgerungen in beiden Verfahren richtig sind. einer semantischen Detektion via KI Gebäude und Ge- Beim Filterverfahren wird aus dem tDOM, also aus der bäudeveränderungen aus Luftbildern segmentiert werden. Voraussetzungen hierfür sind die aus der Bayernbeflie- gung und dem Laserscanning abgeleiteten hochgenauen und innovativen Produkte sowie die amtlichen Geobasis daten. Die Kombination verschiedener Geobasisdaten er- möglicht in Verbindung mit neuartigen Algorithmen eine Optimierung bestehender Prozesse, wie die Baufallerkun- dung. Die Untersuchungen in Abschnitt 3 haben gezeigt, dass KI im Vergleich zu den am LDBV entwickelten Fil- ter- und Vergleichsklassenverfahren die beste Gebäude- detektion mit den geringsten Fehldetektionen aufweist. Die mittels KI abgeleiteten Neu- und Altbaufälle liefern wertvolle Hinweise und können in idealer Weise in die Baufallerkundung an den ÄDBV integriert werden. Die Güte des eingesetzten KI‑Systems hängt von der Qualität der Trainingsdaten ab. Die Gebäudedetektion stellt die einfachste Art der Unterscheidung dar, da nur zwei Klassen – Gebäude und nicht Gebäude – unterschie- den werden müssen. Der in der DFK dokumentierte amt- liche Bestand von über 9 Millionen Gebäuden in Bayern, der täglich durch die ÄDBV fortgeführt wird, stellt einen Abb. 7: Vergleich der TrueDOP aus den Jahren 2015 (oben) qualitätsgesicherten, unabhängig erfassten Trainings- und 2018 (unten) datensatz dar, der für jede Bayernbefliegungsperiode erneut zum Training des KI‑Systems verwendet werden Differenz der beiden Oberflächenmodelle der Jahre 2018 kann. und 2015, das gesamte Gebäude als Neubau erkannt, da Mit den nahezu rauschfreien Ergebnissen zur Detek- es im Jahr 2015 noch nicht vorhanden war. Als Ergeb- tion der Neubau- und Altbaufälle liefert KI wertvolle nis ist dieses Gebäude mit seinem gesamten Gebäudeum- Veränderungshinweise für eine beschleunigte Durch- fang als Neubaufall in Abb. 6a und Abb. 6c richtig dar- musterung der Gebäudeveränderungen an den ÄDBV zur gestellt. Fortführung des amtlichen Liegenschaftskatasters. Das KI‑basierte Verfahren nutzt entsprechend des Ent- Es gilt nun, im nächsten Schritt das aus dieser For- scheidungsbaums nur diejenigen Gebäude, die nicht in schungskooperation erarbeitete KI‑System am LDBV zu der DFK enthalten sind. Im vorliegenden Fall besteht der etablieren, um zukünftig im Rhythmus der Bayernbeflie- gesamte Gebäudekomplex aus drei eingemessenen Ge- gung die Gebäudeveränderungen selbstständig durch- bäuden, die bereits in der DFK dokumentiert sind. Deren führen und das Verfahren weiterentwickeln zu können – Überdachungen sind jedoch nicht in der DFK dokumen- beispielsweise unter Einbeziehung der Infrarotbilder. tiert, sodass mittels KI folgerichtig nur die Überdachun- Denkbar wäre auch eine Übertragung des KI‑Systems auf gen als Neubaufälle detektiert werden. weitere Fernerkundungsdaten. 188 zfv 3/2020 145. Jg. © Wißner-Verlag
Roschlaub et al., KI-basierte Detektion von Gebäuden mittels Deep Learning … Fachbeitrag Literatur Kontakt Geßler, S., Krey, T., Möst, K., Roschlaub, R. (2019): Mit Datenfusionie- Dr.-Ing. Robert Roschlaub | Dipl.-Ing. (FH) Karin Möst | rung Mehrwerte schaffen – Ein Expertensystem zur Baufallerkun- Dipl.-Ing. Clemens Glock dung. DVW-Mitteilungen, Heft 2, 159–187. Landesamt für Digitalisierung, Breitband und Vermessung Haala, N. (2011): Multiray Photogrammetry and Dense Image Matching. Alexandrastraße 4, 80538 München Photogrammetric Week 2011, Wichmann Verlag, Berlin/Offenbach, robert.roschlaub@ldbv.bayern.de | karin.moest@ldbv.bayern.de | 185–195. clemens.glock@ldbv.bayern.de Hirschmüller, H. (2011): Semi-Global Matching – Motivation, Develop- ments and Applications. Photogrammetric Week 2011, 173–184. M. Sc. Qingyu Li | Dr.-Ing. Yilei Shi | PD Dr.-Ing. habil. Michael Jégou, S., Drozdzal, M., Vazquez, D., Romero, A., Bengio, Y. (2017): The Schmitt one hundred layers tiramisu: Fully convolutional densenets for se- Professur für Signalverarbeitung in der Erdbeobachtung, Fakultät für mantic segmentation. Proceedings of the IEEE Conference on Com- Luftfahrt, Raumfahrt und Geodäsie, Technische Universität München puter Vision and Pattern Recognition Workshops, 11–19. Arcisstraße 21, 80333 München Li, Q., Shi, Y., Auer, S., Roschlaub, R., Möst, K., Schmitt, M., Zhu, X. qingyu.li@tum.de | yilei.shi@tum.de | m.schmitt@tum.de (2020): Segmentation of Undocumented Buildings using Deep Le- arning Methods and official geodata. ISPRS, Commission III, WG Dr.-Ing. Stefan Auer III/1, submitted. Deutsches Zentrum für Luft- und Raumfahrt (DLR), Remote Sensing Li, X., Yao, X., Fang, Y. (2018): Building-A-Nets: Robust Building Ex- Technology Institute, Photogrammetry and Image Analysis traction From High-Resolution Remote Sensing Images With Adver- Oberpfaffenhofen sarial Networks. IEEE Journal of Selected Topics in Applied Earth stefan.auer@dlr.de Observations and Remote Sensing, 11(10), 3680–3687. Roschlaub, R., Möst, K., Krey, T. (2020): Automated Classification of Prof. Dr.-Ing. habil. Xiao Xiang Zhu Building Roofs for the Updating of 3D Building Models using Heu- Deutsches Zentrum für Luft- und Raumfahrt (DLR), Remote Sensing ristic Methods. PFG 88, 85–97. DOI: 10.1007/s41064-020-00099-9. Technology Institute, EO Data Science, Oberpfaffenhofen Shi, Y., Li, Q., Zhu, X. X. (2018): Building Footprint Generation Using xiaoxiang.zhu@dlr.de Improved Generative Adversarial Networks. IEEE Geoscience and und Remote Sensing Letters, 16(4), 603–607. Professur für Signalverarbeitung in der Erdbeobachtung, Fakultät für Zhu, X. X., Tuia, D., Mou, L., Xia, G.-S., Zhang, L., Xu, F., Fraundorfer, Luftfahrt, Raumfahrt und Geodäsie, Technische Universität München F. (2017): Deep learning in remote sensing: A comprehensive review Arcisstraße 21, 80333 München and list of resources. IEEE Geoscience and Remote Sensing Maga- xiaoxiang.zhu@tum.de zine, 5(4), 8–36. Dieser Beitrag ist auch digital verfügbar unter www.geodaesie.info. © Wißner-Verlag 145. Jg. 3/2020 zfv 189
Sie können auch lesen