QUAC DATENINHALTE AUTOMATISIERT PRÜFEN, SICHERN, AUFWERTEN UND NUTZBAR MACHEN - CISS TDI GMBH
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Steigende Anforderungen an die Datenqualität Warum steigen die Anforderungen? Mit Fortschritt der Systeme werden die Nutzungsmöglichkeiten erweitert Beispiel: aus CAD-Daten werden GIS-Daten Zunehmende Datenmengen und Dateninhalte Breitere Nutzung über die Fachabteilungen hinaus Beispiel: Konzernübergreifend, für die Öffentlichkeit u.v.m. Dieselben Daten sind in verschiedenen Systemen z.B. GIS, SAP, PSI vorhanden, jedoch mit unterschiedlichen ID‘s, Datenmodellen, …
Steigende Anforderungen an die Datenqualität Was bedeutet Datenqualität Qualität ist anwendungsbezogen, immer auf einen bestimmten Einsatzzweck hin ausgerichtet. Werden Geodaten folglich abteilungsübergreifend genutzt, entspricht die Qualität der Daten nicht unbedingt den Erwartungen.
Steigende Anforderungen an die Datenqualität Kriterien der Datenqualität Vollständigkeit Logische Konsistenz Positionsgenauigkeit Zeitliche Genauigkeit Thematische Genauigkeit
Steigende Anforderungen an die Datenqualität Logische Positions- Zeitliche Thematische Vollständigkeit Konsistenz genauigkeit Genauigkeit Genauigkeit Konzeptuelle Konsistenz Absolute Genauigkeit: Genauigkeit von Richtigkeit der festgestellte Zeitmessungen: z. B. Klassifikation: z. B. Datenüberschuss: Koordinatenwerte = minutengenau, Zuordnung zu Fluss, Datensatz hat wahre Koordinatenwert taggenau statt zu Weg zusätzliche Informationen Wertekonsistenz Relative Genauigkeit: Richtigkeit relative Positionen von Zeitliche Konsistenz: nichtquantitativer Formatkonsistenz Objekten zueinander = Richtigkeit der zeitlichen Attribute: z. B. wahre relative Ereignisse und Abfolgen Nutzungsart von Positionen Grundstücken Datenmangel: Topologische Konsistenz Datensatz enthält Rasterdatengenauigkeit: Zeitliche Gültigkeit: Genauigkeit weniger Daten als Übereinstimmung von Inwieweit stimmt der quantitativer Attribute: angegeben Rasterdatenpositions- Datensatz in Bezug auf Geometrische z. B. Fläche / Größe von werten mit wahren den geforderten Konsistenz Grundstücken Werten Zeitpunkt Vergleiche auch https://de.wikipedia.org/wiki/Geodaten
Beispiele Datenfehler Attributfehler Inkonsistenzen Geometriefehler • Eindeutigkeit • Bezeichner • Doppelte • Wertebereiche •… Digitalisierungspunkte •… • Defekte Geometrien • Unvollständige Topologien •…
Beispiele Datenfehler Fläche 2012 Fläche heute Zerlegt und geglättet
Stolpersteine bei einer Migration Es fehlt in dem Schnitt ein Es fehlt bei dem Hausanschluss Niederspannungstext zu einem die Hausnummer im Gebäude Kabelsymbol
Stolpersteine bei einer Migration Falsche Orientierung eines Endknotens Geometrisch topologisch fehlerhafte Situation → Finde nur die Symbole, die die falsche Orientierung haben → Finde Undershots, Overshots und unverknüpfte Punkte → Evtl. automatisierte Korrektur durch Ändern der Symbol-Orientierung
Stolpersteine bei einer Migration … Fehlende Absperrungen an Es lassen sich nahezu beliebig viele Hausanschlüssen weitere Datenfehler oder „Stolpersteine“ → Finde alle Hausanschlüsse ohne finden. Absperrung → Evtl. automatisierte Korrektur durch z.B. auch attributiv: ungültige Zeichen, Erzeugen von Absperrungen auf den ASCII konform, Katalogwerte eingehalten, Leitungen mit Offset zu den T-Stücken Formate eingehalten, Datum, ...
QuAC – Quality Assurance Center
QuAC – Das Quality Assurance Center von CISS TDI Was ist das QuAC? Dateninhalte automatisiert prüfen, sichern, aufwerten und nutzbar machen Selbstständige Applikation, Java-Bibliothek oder WebApp Einfach konfigurierbar, regelmäßig steuerbar, individuell erweiterbar, systemneutral
QuAC – Das Quality Assurance Center von CISS TDI Anwendungsfälle für das QuAC Daten werden vor/während/nach dem Export qualitätsgesichert Daten werden vor/während/nach dem Import qualitätsgesichert Daten werden innerhalb der Datenhaltung (einmalig oder zyklisch) qualitätsgesichert Hilft beim Umsetzen von ISO-Standards (19113, 19157, 19158, 19115/19139)
QuAC – Das Quality Assurance Center von CISS TDI Grundlagen des QuAC Das QuAC prüft strukturierte Datensätze wie z.B. SQL, SPARQL, CITRA, (geo)JSON, CSV und Text-Dateien. Über Klassen (Metrik & Reporter) wird die Art der Prüfung und die des Reports definiert. Im QuAC bereits enthaltene Prüfungen und Reports können angepasst und um eigene ergänzt werden. Hinterlegte Prüfungen können zusätzlich miteinander verknüpft werden, um auch komplexe Prüfregeln übersichtlich darzustellen und zu steuern.
QuAC – Das Quality Assurance Center von CISS TDI Kernkomponenten des QuAC Klasse „Metrik“ (definiertes Messverfahren) Die Klasse Metrik prüft die Einträge des Datensatzes (Tabelle): der Datensatz wird Zeile für Zeile durchlaufen und die Metrik validiert ein (oder mehrere) Spalten-Einträge für diese Zeile. Klasse „Reporter“ Die Klasse Reporter regelt die Reaktion auf ein fehlerhaftes Datum: Markiert die Klasse Metric einen Eintrag als fehlerhaft, wird ein Report für dieses Datum ausgelöst . Konfiguration Das Zusammenspiel von Datenbasis, Metric und Reporter wird in XML konfiguriert. Mit Hilfe der GUI und der WebApp ist auch eine einfache Erzeugung / Änderung der Konfiguration möglich.
QuAC – Das Quality Assurance Center von CISS TDI Funktionsweise des QuAC Aufruf durch Metrik 1 Main-Loop Reporter 1 Reporter 2 Metrik 2 Reporter 3 Durch das Zusammenspiel Metrik 3 (Konfiguration) von mehreren Metriken und Reportern können komplexe Prüf- Szenarien abgebildet werden. Metrik 4
QuAC – Das Quality Assurance Center von CISS TDI Auszug aktuell verfügbare Metriken Vollständigkeits- Datum Nummern Lookup Regex /Eindeutigkeits-Prüfung • Das Datum muss • Prüft Zahlen auf • Ergebnis ist OK wenn • Ergebnis ist OK wenn • Werte in einer Liste innerhalb der Spanne Eigenschaften Wert in Katalog Wert dem Regex genügt. müssen im Result-Set „min“ und „max“ liegen • z.B. Datentyp, Anzahl vorkommt • Invers: Ergebnis ist nicht vorkommen. • Formatprüfung: Das Nachkommastellen, • Invers: Ergebnis ist nicht OK wenn Wert dem • Kommt ein Wert mehr Datum muss einem Dezimal-/Tausender- OK wenn Wert in Regex genügt. als 1 Mal im Result-Set Format-String (Java) Trennzeichen, Katalog vorkommt vor? entsprechen Exponentialdarstellung, etc.
QuAC – Das Quality Assurance Center von CISS TDI Auszug aktuell verfügbare Reporter Vocab-dqv Stream Reporter File Reporter CITRA Reporter SQL Reporter Reporter • Schreibt die • Schreibt Die • Schreibt • Trägt die • Schreibt ein Reporter- Reporter- gemeldete Reporter- vocab-dqv Meta- Meldung auf Meldungen in Objekte in eine Meldung in ein Daten-Bericht einen Stream eine Datei CITRA-Datei SQL-Tabelle ein (z.B. den Terminal/stdout)
QuAC – Das Quality Assurance Center von CISS TDI Welche Daten können geprüft werden? Sachdaten werden aus den Tabellen als „String“ Als Datenbasis kann alles (oder „Date“) ausgelesen. verwendet werden, was über JDBC angesprochen werden kann, wie z.B. SQL, SPARQL, CITRA, Geometrien werden als JTS-Geometries (geo)JSON, CSV und Text-Dateien. repräsentiert. Folgende Typen können beispielsweise gelesen werden: SDO-Geometries, ST-Geometries, WKT/WKB, CITRA (PICTURE-Teil).
QuAC – Das Quality Assurance Center von CISS TDI Das QuAC in Ihrer Infrastruktur als Java- als eigenständige Bibliothek, als „Java Stored Applikation / als Referenz-GUI als WebApp oder eingebunden in Procedure“ in eigenständiger in JavaFX WebService Ihre Java- Ihrer Datenbank Prozess Projekte Das QAC kann flexibel in jede Art von Workflow integriert werden
QuAC – Das Quality Assurance Center von CISS TDI Einsatzbeispiel: Al-Abzweige enden korrekter Weise auf Anschlussleitungen und sitzen auf Versorgungsleitungen Der existierende Bsp.: Hat Geprüft wurden sowohl Die Daten waren nicht Komplexe topologische Datenbestand sollte „Hausanschlussleitung“ Sachdaten als auch topologisch verknüpft Fragestellungen wurden analysiert und bewertet mit Attribut: Geometrien (kombiniert) getestet werden. „Betriebsstatus“ = „IB“ (Als Entscheidungshilfe einen Knoten vom Typ zur Einführung eines „AL-Abzweig“ auf dem neuen GIS) Endpunkt, der eine „Versorgungsleitung“ schneidet?
Das QuAC als Applikation in Screenshots
QuAC als eigenständige Applikation - Screenshots Die Start-Maske dient primär zum Einlesen und Ausführen einer Konfiguration. Terminal-Ausgabe wird in das Infofeld der GUI umgeleitet. Über „Neu“ und „Bearbeiten“ kann eine Konfiguration neu erstellt bzw. bearbeitet werden.
QuAC als eigenständige Applikation - Screenshots Klickt man in der Startmaske auf „Neu“ oder „Bearbeiten“ kommt man zu dieser Übersicht, über die alle Prüfungen in der Konfiguration definiert sind. Über „Hinzufügen“ und „Bearbeiten“ kann eine neue Prüfung erstellt bzw. bearbeitet werden.
QuAC als eigenständige Applikation - Screenshots In dieser Maske wird eine Prüfung definiert. Besonders relevant sind die Felder Regel und Daten-Quelle. Hier wird angegeben, welche Regel (Kette von Metriken) verwendet werden soll und auf welche Datenbasis sie angewendet werden sollen (z.B. SQL-Query). Über „Neu“ oder „Bearbeiten“ können Regeln erzeugt oder bearbeitet werden.
QuAC als eigenständige Applikation - Screenshots In dieser Maske wird eine Regel definiert. Eine Regel kann aus mehreren Metriken zusammengesetzt sein. Über den „+“ Button können neue Metriken integriert werden. Bestehende Metriken können bearbeitet oder entfernt werden.
QuAC als eigenständige Applikation - Screenshots In dieser Maske wird eine Metrik konfiguriert. Es muss die Implementierung der Metrik gewählt werden und auf welche Spalten der Datenbasis sie angewendet werden soll. Es kann ein Reporter ausgewählt werden. (Dieser wird analog zu Regeln/Metriken konfiguriert.) Es können Metrik-spezifische Parameter gesetzt werden, um die Funktion der Metrik zu steuern.
Zusammenfassung der wichtigsten Punkte
Zusammenfassung Steigende Anforderungen an Datenqualität • Durch steigende Datenmenge & -Inhalte und übergreifende Nutzungsmöglichkeiten • Durch verbesserte und umfangreichere Systeme Möglichkeiten der Datenverbesserung • Reporting und Korrektur von Attributfehlern, Inkonsistenzen, Geometriefehlern, … • Reporting und Ergänzung von fehlenden Informationen Das QuAC – Funktionen des Quality Assurance Centers • Dateninhalte automatisiert prüfen und sichern • Dateninhalte automatisiert aufwerten, korrigieren, ergänzen und nutzbar machen Verfügbarkeit des QuAC • Als Applikation und als Java-Bibliothek • In Entwicklung als Web-App / Web-Service
Ihr Ansprechpartner bei CISS TDI Rolf Jüttner 02642-9780-50 r.juettner@ciss.de CISS TDI GmbH Barbarossastr. 36 53489 Sinzig Copyright Grafiken: pixabay.com / CISS TDI GmbH
Sie können auch lesen