QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH

Die Seite wird erstellt Nikolas Bock
 
WEITER LESEN
QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH
QuAC
Dateninhalte
automatisiert prüfen,
sichern, aufwerten
und nutzbar machen.
QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH
Datenqualität
QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH
Steigende Anforderungen an die Datenqualität

      Warum steigen die Anforderungen?
              Mit Fortschritt der Systeme werden die Nutzungsmöglichkeiten erweitert
                              Beispiel: aus CAD-Daten werden GIS-Daten

                           Zunehmende Datenmengen und Dateninhalte

                         Breitere Nutzung über die Fachabteilungen hinaus
                     Beispiel: Konzernübergreifend, für die Öffentlichkeit u.v.m.

            Dieselben Daten sind in verschiedenen Systemen z.B. GIS, SAP, PSI vorhanden,
                       jedoch mit unterschiedlichen ID‘s, Datenmodellen, …
QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH
Steigende Anforderungen an die Datenqualität

              Was bedeutet Datenqualität
                                Qualität ist anwendungsbezogen,
                   immer auf einen bestimmten Einsatzzweck hin ausgerichtet.

                    Werden Geodaten folglich abteilungsübergreifend genutzt,
                entspricht die Qualität der Daten nicht unbedingt den Erwartungen.
QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH
Steigende Anforderungen an die Datenqualität

               Kriterien der Datenqualität
                                       Vollständigkeit

                                    Logische Konsistenz

                                    Positionsgenauigkeit

                                    Zeitliche Genauigkeit

                                  Thematische Genauigkeit
QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH
Steigende Anforderungen an die Datenqualität

                           Logische                 Positions-                   Zeitliche                  Thematische
 Vollständigkeit
                          Konsistenz               genauigkeit                  Genauigkeit                 Genauigkeit

                       Konzeptuelle Konsistenz    Absolute Genauigkeit:           Genauigkeit von              Richtigkeit der
                                                      festgestellte             Zeitmessungen: z. B.         Klassifikation: z. B.
   Datenüberschuss:
                                                   Koordinatenwerte =             minutengenau,             Zuordnung zu Fluss,
     Datensatz hat
                                                 wahre Koordinatenwert               taggenau                   statt zu Weg
      zusätzliche
    Informationen         Wertekonsistenz

                                                  Relative Genauigkeit:                                          Richtigkeit
                                                 relative Positionen von        Zeitliche Konsistenz:        nichtquantitativer
                          Formatkonsistenz       Objekten zueinander =        Richtigkeit der zeitlichen       Attribute: z. B.
                                                      wahre relative          Ereignisse und Abfolgen         Nutzungsart von
                                                        Positionen                                             Grundstücken
    Datenmangel:       Topologische Konsistenz
   Datensatz enthält                             Rasterdatengenauigkeit:       Zeitliche Gültigkeit:
                                                                                                                  Genauigkeit
   weniger Daten als                              Übereinstimmung von         Inwieweit stimmt der
                                                                                                           quantitativer Attribute:
      angegeben                                   Rasterdatenpositions-       Datensatz in Bezug auf
                           Geometrische                                                                    z. B. Fläche / Größe von
                                                   werten mit wahren             den geforderten
                            Konsistenz                                                                           Grundstücken
                                                         Werten                      Zeitpunkt

                                                                     Vergleiche auch https://de.wikipedia.org/wiki/Geodaten
QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH
Datenfehler – Möglichkeiten der Datenverbesserung
QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH
Beispiele Datenfehler

    Attributfehler      Inkonsistenzen   Geometriefehler
    • Eindeutigkeit     • Bezeichner     • Doppelte
    • Wertebereiche     •…                 Digitalisierungspunkte
    •…                                   • Defekte Geometrien
                                         • Unvollständige
                                           Topologien
                                         •…
QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH
Beispiele Datenfehler

           Exklave über der   Abtrennen der Exklaven
            Mutterfläche
QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH
Beispiele Datenfehler

       Enklaven mit Exklaven   Korrektur in der
                                 Datenbank
Beispiele Datenfehler

               Fläche 2012        Fläche heute
          Zerlegt und geglättet
Stolpersteine bei einer Migration

        Es fehlt in dem Schnitt ein   Es fehlt bei dem Hausanschluss
      Niederspannungstext zu einem    die Hausnummer im Gebäude
               Kabelsymbol
Stolpersteine bei einer Migration

    Falsche Orientierung eines Endknotens     Geometrisch topologisch fehlerhafte
                                                           Situation
       → Finde nur die Symbole, die die
         falsche Orientierung haben           → Finde Undershots, Overshots und
                                                    unverknüpfte Punkte
     → Evtl. automatisierte Korrektur durch
       Ändern der Symbol-Orientierung
Stolpersteine bei einer Migration

                                                               …
           Fehlende Absperrungen an             Es lassen sich nahezu beliebig viele
                Hausanschlüssen               weitere Datenfehler oder „Stolpersteine“
       → Finde alle Hausanschlüsse ohne                        finden.
                  Absperrung
     → Evtl. automatisierte Korrektur durch    z.B. auch attributiv: ungültige Zeichen,
      Erzeugen von Absperrungen auf den       ASCII konform, Katalogwerte eingehalten,
     Leitungen mit Offset zu den T-Stücken         Formate eingehalten, Datum, ...
QuAC – Quality Assurance Center
QuAC – Das Quality Assurance Center von CISS TDI

                          Was ist das QuAC?
            Dateninhalte automatisiert prüfen, sichern, aufwerten und nutzbar machen

                      Selbstständige Applikation, Java-Bibliothek oder WebApp

         Einfach konfigurierbar, regelmäßig steuerbar, individuell erweiterbar, systemneutral
QuAC – Das Quality Assurance Center von CISS TDI

          Anwendungsfälle für das QuAC
                   Daten werden vor/während/nach dem Export qualitätsgesichert

                  Daten werden vor/während/nach dem Import qualitätsgesichert

         Daten werden innerhalb der Datenhaltung (einmalig oder zyklisch) qualitätsgesichert

            Hilft beim Umsetzen von ISO-Standards (19113, 19157, 19158, 19115/19139)
QuAC – Das Quality Assurance Center von CISS TDI

                     Grundlagen des QuAC
               Das QuAC prüft strukturierte Datensätze wie z.B. SQL, SPARQL, CITRA,
                                (geo)JSON, CSV und Text-Dateien.

                     Über Klassen (Metrik & Reporter) wird die Art der Prüfung
                                   und die des Reports definiert.

               Im QuAC bereits enthaltene Prüfungen und Reports können angepasst
                                 und um eigene ergänzt werden.

          Hinterlegte Prüfungen können zusätzlich miteinander verknüpft werden, um auch
                   komplexe Prüfregeln übersichtlich darzustellen und zu steuern.
QuAC – Das Quality Assurance Center von CISS TDI

            Kernkomponenten des QuAC
                 Klasse „Metrik“ (definiertes Messverfahren)
                 Die Klasse Metrik prüft die Einträge des Datensatzes (Tabelle): der Datensatz wird Zeile für
                 Zeile durchlaufen und die Metrik validiert ein (oder mehrere) Spalten-Einträge für diese
                 Zeile.

                 Klasse „Reporter“
                 Die Klasse Reporter regelt die Reaktion auf ein fehlerhaftes Datum: Markiert die Klasse
                 Metric einen Eintrag als fehlerhaft, wird ein Report für dieses Datum ausgelöst .

                 Konfiguration
                 Das Zusammenspiel von Datenbasis, Metric und Reporter wird in XML konfiguriert. Mit
                 Hilfe der GUI und der WebApp ist auch eine einfache Erzeugung / Änderung der
                 Konfiguration möglich.
QuAC – Das Quality Assurance Center von CISS TDI

                        Funktionsweise des QuAC
  Aufruf durch                 Metrik 1
   Main-Loop
                                                          Reporter 1       Reporter 2

                                          Metrik 2

                                                                           Reporter 3

Durch das Zusammenspiel                              Metrik 3
(Konfiguration) von mehreren
Metriken und Reportern
können komplexe Prüf-
Szenarien abgebildet werden.
                                                                Metrik 4
QuAC – Das Quality Assurance Center von CISS TDI

    Auszug aktuell verfügbare Metriken
                                                                                                                          Vollständigkeits-
         Datum                     Nummern                       Lookup                          Regex
                                                                                                                      /Eindeutigkeits-Prüfung
• Das Datum muss           • Prüft Zahlen auf          • Ergebnis ist OK wenn         • Ergebnis ist OK wenn         • Werte in einer Liste
  innerhalb der Spanne       Eigenschaften               Wert in Katalog                Wert dem Regex genügt.         müssen im Result-Set
  „min“ und „max“ liegen   • z.B. Datentyp, Anzahl       vorkommt                     • Invers: Ergebnis ist nicht     vorkommen.
• Formatprüfung: Das         Nachkommastellen,         • Invers: Ergebnis ist nicht     OK wenn Wert dem             • Kommt ein Wert mehr
  Datum muss einem           Dezimal-/Tausender-         OK wenn Wert in                Regex genügt.                  als 1 Mal im Result-Set
  Format-String (Java)       Trennzeichen,               Katalog vorkommt                                              vor?
  entsprechen                Exponentialdarstellung,
                             etc.
QuAC – Das Quality Assurance Center von CISS TDI

    Auszug aktuell verfügbare Reporter
                                                                                    Vocab-dqv
 Stream Reporter        File Reporter     CITRA Reporter       SQL Reporter
                                                                                     Reporter
• Schreibt die       • Schreibt Die     • Schreibt          • Trägt die         • Schreibt ein
  Reporter-            Reporter-          gemeldete           Reporter-           vocab-dqv Meta-
  Meldung auf          Meldungen in       Objekte in eine     Meldung in ein      Daten-Bericht
  einen Stream         eine Datei         CITRA-Datei         SQL-Tabelle ein
  (z.B. den
  Terminal/stdout)
QuAC – Das Quality Assurance Center von CISS TDI

 Welche Daten können geprüft werden?

                                               Sachdaten werden aus den Tabellen als „String“
      Als Datenbasis kann alles                          (oder „Date“) ausgelesen.
 verwendet werden, was über JDBC
   angesprochen werden kann, wie
      z.B. SQL, SPARQL, CITRA,                     Geometrien werden als JTS-Geometries
  (geo)JSON, CSV und Text-Dateien.           repräsentiert. Folgende Typen können beispielsweise
                                              gelesen werden: SDO-Geometries, ST-Geometries,
                                                       WKT/WKB, CITRA (PICTURE-Teil).
QuAC – Das Quality Assurance Center von CISS TDI

          Das QuAC in Ihrer Infrastruktur

    als Java-
                 als eigenständige
  Bibliothek,                      als „Java Stored
                   Applikation /                              als Referenz-GUI als WebApp oder
eingebunden in                      Procedure“ in
                  eigenständiger                                  in JavaFX       WebService
   Ihre Java-                      Ihrer Datenbank
                       Prozess
    Projekte

                  Das QAC kann flexibel in jede Art von Workflow integriert werden
QuAC – Das Quality Assurance Center von CISS TDI

   Einsatzbeispiel: Al-Abzweige enden korrekter Weise auf Anschlussleitungen und sitzen auf Versorgungsleitungen

Der existierende          Bsp.: Hat                 Geprüft wurden sowohl     Die Daten waren nicht   Komplexe topologische
Datenbestand sollte       „Hausanschlussleitung“    Sachdaten als auch        topologisch verknüpft   Fragestellungen wurden
analysiert und bewertet   mit Attribut:             Geometrien (kombiniert)                           getestet
werden.                   „Betriebsstatus“ = „IB“
(Als Entscheidungshilfe   einen Knoten vom Typ
zur Einführung eines      „AL-Abzweig“ auf dem
neuen GIS)                Endpunkt, der eine
                          „Versorgungsleitung“
                          schneidet?
Das QuAC als Applikation in Screenshots
QuAC als eigenständige Applikation - Screenshots

                                                    Die Start-Maske dient primär
                                                    zum Einlesen und Ausführen
                                                         einer Konfiguration.

                                                    Terminal-Ausgabe wird in das
                                                     Infofeld der GUI umgeleitet.

                                                    Über „Neu“ und „Bearbeiten“
                                                     kann eine Konfiguration neu
                                                   erstellt bzw. bearbeitet werden.
QuAC als eigenständige Applikation - Screenshots

                                                   Klickt man in der Startmaske auf
                                                       „Neu“ oder „Bearbeiten“
                                                   kommt man zu dieser Übersicht,
                                                    über die alle Prüfungen in der
                                                     Konfiguration definiert sind.

                                                       Über „Hinzufügen“ und
                                                    „Bearbeiten“ kann eine neue
                                                   Prüfung erstellt bzw. bearbeitet
                                                              werden.
QuAC als eigenständige Applikation - Screenshots

                                                     In dieser Maske wird eine
                                                         Prüfung definiert.

                                                     Besonders relevant sind die
                                                   Felder Regel und Daten-Quelle.
                                                    Hier wird angegeben, welche
                                                     Regel (Kette von Metriken)
                                                   verwendet werden soll und auf
                                                       welche Datenbasis sie
                                                     angewendet werden sollen
                                                          (z.B. SQL-Query).

                                                   Über „Neu“ oder „Bearbeiten“
                                                    können Regeln erzeugt oder
                                                        bearbeitet werden.
QuAC als eigenständige Applikation - Screenshots

                                                   In dieser Maske wird eine Regel
                                                              definiert.

                                                    Eine Regel kann aus mehreren
                                                   Metriken zusammengesetzt sein.

                                                     Über den „+“ Button können
                                                   neue Metriken integriert werden.

                                                    Bestehende Metriken können
                                                   bearbeitet oder entfernt werden.
QuAC als eigenständige Applikation - Screenshots

                                                   In dieser Maske wird eine Metrik
                                                              konfiguriert.

                                                    Es muss die Implementierung
                                                   der Metrik gewählt werden und
                                                       auf welche Spalten der
                                                     Datenbasis sie angewendet
                                                            werden soll.

                                                   Es kann ein Reporter ausgewählt
                                                    werden. (Dieser wird analog zu
                                                    Regeln/Metriken konfiguriert.)

                                                    Es können Metrik-spezifische
                                                   Parameter gesetzt werden, um
                                                     die Funktion der Metrik zu
                                                              steuern.
Zusammenfassung der wichtigsten Punkte
Zusammenfassung

                  Steigende Anforderungen an Datenqualität
                  • Durch steigende Datenmenge & -Inhalte und übergreifende Nutzungsmöglichkeiten
                  • Durch verbesserte und umfangreichere Systeme

                  Möglichkeiten der Datenverbesserung
                  • Reporting und Korrektur von Attributfehlern, Inkonsistenzen, Geometriefehlern, …
                  • Reporting und Ergänzung von fehlenden Informationen

                  Das QuAC – Funktionen des Quality Assurance Centers
                  • Dateninhalte automatisiert prüfen und sichern
                  • Dateninhalte automatisiert aufwerten, korrigieren, ergänzen und nutzbar machen

                  Verfügbarkeit des QuAC
                  • Als Applikation und als Java-Bibliothek
                  • In Entwicklung als Web-App / Web-Service
Ihr Ansprechpartner bei CISS TDI

Rolf Jüttner

     02642-9780-50

     r.juettner@ciss.de

CISS TDI GmbH
Barbarossastr. 36
53489 Sinzig

                                   Copyright Grafiken: pixabay.com / CISS TDI GmbH
Sie können auch lesen