Goethe-Universität Frankfurt Big Data Lab Database Systems I Gastvorlesung - Jens Fache und Dr. Michael Simora, Adastra GmbH - Database Systems I ...
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Goethe-Universität Frankfurt Big Data Lab - Database Systems I - Gastvorlesung Jens Fache und Dr. Michael Simora, Adastra GmbH Frankfurt, 06.02.2019
Adastra Quick Facts INFORMATION 24 BÜROS €175 WELTWEIT 2000+ EXPERTEN INSIGHT MILLIONEN Daten Management 32 Internationale 360+ abgeschlossene Stetiges Wachstum und Business Analytics Auszeichnungen für Projekte seit 20 Jahren Qualität 2
Adastra Leistungsportfolio Business Analysis Business Quality Intelligence Assurance Solution Data Architecture Quality Business Information Management Project Data Manage- Integration ment Big Data & Advanced Analytics Master Analytics Data Manage- ment 3
Use Case I: Datenmodell in Banken Ziele / Zweck des Enterprise Data Warehouse (EDW) (grobe) Architektur des EDW Datenanlieferung Datenverarbeitung Datenexport Konzeptionelles und Physisches Datenmodell Rückblick Ausblick 4
Enterprise Data Warehouse (EDW) Ziel: zentrale Datenintegrationsplattform Decision Support System Kein Reporting Kein Frontend / Graphical User Interface Nur MS SQL Server 5
EDW Architektur EDW Inte- Roh Export grierte Daten Daten Schicht Daten Schicht Schicht Informatica 6
EDW Architektur Kunden- / Geschäfts- daten L A Trans- D aktionen E R RDS IDS EDS A Töchter M P E Informatica Vorsysteme 7
EDW Architektur Kunden- / Geschäfts- Data Mart I daten L L I A E Trans- D F Data Mart II aktionen E E R RDS IDS EDS R A R Töchter M A Reporting P M E Informatica P E Controlling, Vorsysteme Buchhaltung 8
EDW Architektur Kunden- / Geschäfts- Data Mart I daten L L Ab Initio I A E Trans- D F Data Mart II aktionen E E R RDS IDS EDS R A R Töchter M A Reporting P M E Informatica P E Controlling, Vorsysteme Buchhaltung Stresstest 9
EDW Architektur Referenzdaten Kunden- / Geschäfts- Data Mart I daten L L Ab Initio I A E Trans- D F Data Mart II aktionen E E R RDS IDS EDS R A R Töchter M A Reporting P M E Informatica P E Controlling, Vorsysteme Buchhaltung Stresstest 10
Datenanlieferung Pull vs. Push Verfahren Immer Volllieferungen! Delta bei Bedarf aus Historisierung berechnet Kunden- / Risk Data Geschäfts- Kredite Kreditart Warehouse daten Verbriefung Geldhandel Global Limit Kontotyp sbestand Inland System EDW LADE- Sicher- Devisen- Rechts- RAMPE Töchter heiten handel formen Risiko- Depot- Wirtschafts- u.v.m. vorsorge gebühren zweige 11
Datenverarbeitung Tagesverarbeitung vs. Ultimoverarbeitung L L I Export A Roh Integrierte E Daten D Daten Daten F Schicht E Schicht Schicht E = R = = R Datenmodell A Datenmodell Datenmodell R (anforderung) M Quellsysteme fachl. Sicht A Abnehmer- P M systeme E P E ETL mit Informatica: Join, Sum, Transform, Deduplicate, etc. 12
Datenverarbeitung II L L Ab Initio: I A Data Governance, Data Quality E D F E E R R A R RDS IDS EDS M A P M E P E Stresstest: Simulation Kreditausfälle, Währungsverfall, Leitzinsszenarien, strengere regul. Anforderungen, etc. 13
Datenexport Referenzdaten Pull vs. Push Verfahren Data Mart I Reporting EDW LIEFER- RAMPE Data Mart II Buchhaltung Controlling Data Mart III 14
Datenmodellierung Bislang: Enterprise Data Warehouse Architektur sowie Datenverarbeitung / Datenflüsse (übergeordnet) Jetzt: Architektur auf granularer Ebene Im EDW (und anderswo) zahlreiche Entitäten abgebildet Kunde, Konto, Geschäft, Ratings, Risikopositionen, etc. Fachbereich definiert konzeptionelles Datenmodell (Zusammenhänge) IT definiert / implementiert physisches Datenmodell Plattformübergreifendes logisches Datenmodell nicht notwendig, da nur SQL Server genutzt wird 15
Konzeptionelles Datenmodell Kunden- Risiko- Kundengruppe position information Rechtsform Wertpapier- stamm Land Kunden- Geschäft rolle Sicherungs- Kunde geschäft Organisations Sicherheiten- -einheit verteilung Kunden- Sicherheiten- verknüpfung verteilung HGB Ratings Ausschlussgrund Verknüpfungsart Verknüpfungsgrund 16
Physisches Datenmodell Kunden- Kundenrolle Kundenrolle information: Geschäft: Risikoposition: … … … Konto: Kundenrating- Konto_SID intern: Kunde: (PS,bigint,Nicht-NULL); KUNDE_SID; Kunde_SID (PS,bigint,Nicht-NULL); Kunde_SID Business_Date; Business_Date (date,Nicht-NULL); (bigint,Nicht-NULL); Ratingnote_LC; Name (varchar(100),NULL); Business_Date Ratingnote_FC; Adresse (varchar(100),NULL); (date,Nicht-NULL); … ID_jur_Person (varchar(100),NULL); Bezeichnung_KTO (varchar(100),NULL); Rechtsform (varchar(100),NULL); Kundenrating- Internes_Limit_Betrag Bilanzsumme (decimal(28,4),NULL); (varchar(100),NULL); extern: Jahresumsatz (decimal(28,4),NULL); … KUNDE_SID; … Business_Date; Ratingnote_extern; Limite: Vermögen: Source_System_ID; … … … 17
Rückblick Planung: Aufbau des EDW als zentrale Datenintegrationsplattform der Bank Schritt 1: Identifizierung der Kerngeschäftsprozesse, der zugehörigen Entitäten sowie deren Relationen Zunehmende (regulatorische) Anforderungen Sukzessiv wachsendes Data Warehouse Top-Down vs. Bottom-Up Ansatz Generische Modellierung notwendig Dokumentation! 18
Ausblick Anbindung der Töchter und deren Datenverarbeitung ins zentrale EDW Mehr Quellsysteme, Mehr Abnehmersysteme, Mehr Datenverarbeitung Mehr Datenlast Performance Probleme bei Tagesverarbeitung absehbar Clusterlösung Eingliederung Stresstest Ausbau der zentralen Data Governance Anwendung Vereinheitlichung, Datenqualitätssicherung 19
Anwendungsfall: Autohersteller - Qualitätssicherung Qualitätssicherung: • Nach wieviel km geht Kupplungsbausatz KBSX-12 durchschnittlich kaputt • Wieviel Garantieleistungen hat das Modell SUV_3XL verursacht. • Ist die Motorwarnleuchte im Cabrio_2 bei offenem Dach auffällig genug • Hat die die Scheinwerferserie ULight+ ein Problem bei längeren Regenperioden • Welche Garantieleistungen sind für das Modell L-0817 in Schweden zu erwarten • Wieviel Bremsscheibensätze der Reihe BS_23/4 werden im kommenden Jahr für den Austausch in den USA benötigt Analyse Plattform um derartige Fragestellungen flexibel beantworten zu können Schnelle Antwortzeiten Graphische Bedieneroberfläche Mobiltauglich …. 20
Anwendungsfall: Autohersteller - Qualitätssicherung Ausgangssituation: xml • Daten können nur in Excel Access Excel Excel Access manuell kombiniert/ Excel verbunden werden Excel Excel csv • Keine automatische Synchronisation • Kapazitäts und Performanceprobleme • Fehleranfällig FTP Client ... ... Externe Datenquellen Gemeinsame Hostingplattform für konzerneigene ... Produktionsssysteme DB2 IBM Host Konzern Operational Data Store 21
Anwendungsfall: Autohersteller - Qualitätssicherung SPSS R Deep Advanced Analytics: Cognos BI Predictive analysis Analysis Deep learning... Writeback Zielarchitektur: REST API Analytische High Performance DB Abfrageoptimiertes IBM IDAA denormalisertes Modell Transformationen Denormalisierung Verknüpfung und Mainframe Jobs Historisierung der Daten Datenintegration in DWH in einem Datawarehouse Normalisiertes und Dimensionales Modell Oracle DWH Transformationen DWH Datenmodell ... ... FTP Client ... DB2 IBM Host Konzern Operational Data Store 22
Anwendungsfall: Autohersteller - Qualitätssicherung Welche Datenquellen brauche ich : • Fahrzeugstammdaten (Steckbrief:Typ, Ausstattung, ProduktionsDatum, Produktionswerk) • Fahrzeugdetails( Teile, Komponenten, Bausätze) • Zulassungsdaten(wann, wo) • Werkstattberichte • Garantie (Berichte über Garantieleistungen) • Steuergeräte(Protokolle) • Geographie ( Karten, GPS) • Wetterdaten • … 23
Anwendungsfall: Autohersteller - Qualitätssicherung Beschreibung der Datenquellen / Schnittstellen Inhalt (fachlich) Sind alle Informationen enthalten Beschreibung Files und Felder Beschreibung Entities und Attribute Qualität Typsicherheit Vollständigkeit (null Felder) Manuell gepflegt? Duplikate? Quantität Anzahl Files Anzahl Felder Physikalische Größe Menge Backdata 24
Anwendungsfall: Autohersteller - Qualitätssicherung Beschreibung der Datenquellen / Schnittstellen Aktualisierungsfrequenz Quellsystem Täglich, Monatlich, Stream Zielsystem Anforderung Reihenfolge relevant Wie passt Frequenz zu den anderen Datenquellen (integrität) Format (technisch) Codierung csv, xml, xls ,fixed with Header? Delimiter Metadaten? 25
Anwendungsfall: Autohersteller - Qualitätssicherung Beschreibung der Datenquellen / Schnittstellen Zugriff/Konnektivität Remoteverbindung Adresse Authentication Methode Credentials Verschlüsselung Komprimierung Sensitivität Persönliche Daten (Gesetzliche Regelungen) Unternehmenskritische Daten( Unternehmensrichtlinien) 26
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung KFZ Steckbrief Interface Name KFZ Steckbrief Type sftp Count 3 Tables/Files Source IBM Host Refstore File System Interface Source Adress sftp://rfs/KFZSteckrief Authenticat ion sysqsusr, PKI frequency Dayli time 03.00 am encrypted no compressed .zip security class 3 27
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung KFZ Steckbrief interface KFZ_Steckbrief FileName SalesInfo_.zip ProductionInfo_.zip Description Produktionsinformationen Beschreibung Verkaufs, Datensatz erzeugt bei Verkauf Datensatz erzeugt bei Auslieferung BusinessEntity Link resp. Verkauf Fahrzeug type fw fw code ASCII ASCII size_max 10GB 100GB size_min 256kB 256kB Header no no RowDelimiter ColumnDelimiter no no 28
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung KFZ Steckbrief interface KFZ_Steckbrief fileName SalesInfo_.zip description Datensatz erzeugt bei Verkauf Händler und Kunden Info FeldName Description DataType Len isnull isconf ismanuell FIN FahrgestellNr char 17 0 0 0 HNR HändlerNr int 6 0 0 0 AuslieferungsID ab AuslID Werk bigint 8 0 0 0 Bestelldatum OrderDt Händler date 12 1 0 0 StArrDt Store arrival date date 12 1 0 0 SalesDt Verkaufsdatum date 12 1 0 0 CustNm Kunden Nm char 64 1 1 0 CustCity KundenOrt char 12 1 1 0 CustPCode Kunden PLZ int 5 1 1 0 CustAdr Kunden Adresse char 256 1 1 0 .. 29
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung KFZ Steckbrief interface KFZ_Steckbrief FileName ProductionInfo_.zip Description Produktionsinformationen Datensatz erzeugt bei Auslieferung FeldName Description DataType Len isnull isconf ismanuell FIN FahrgestellNr char 17 0 0 0 AuslID AuslieferungsID ab Werk bigint 8 0 0 0 ProdDt Ab Freigabe Qualitätssicherung date 12 0 0 0 TypID Interne TypID bigint 8 0 0 0 VarID VariantenID bigint 8 0 0 0 QSRecID QualityRecordID char 64 0 1 0 OrderID Order ID bigint 8 1 0 0 ColorCd Color Code bigint 8 0 0 0 CMod1 Custom Module 1 char 24 1 1 0 CMod2 Custom Module 2 char 24 1 1 0 CMod3 Custom Module 3 char 24 1 1 0 … 30
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung Fahrzeugteile Interface Name Fahrzeugteile Type database jdbc Count Tables/Files 7 Source System BeschaffungsDWH Source Adress 175.124.8.3:212 Authentication sysqsUser frequency continously time on demand encrypted no compressed security class 4|5 31
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung Fahrzeugteile interface CarParts TableName Core.Assembly Core.Parts.Price Core.PartsByVariant Description Teilinformation als Preisinformation für Teile Zuordnung von Teilen Parent Child Table und Baugruppen mit zu Autovarianten zeitlicher Eingrenzung BusinessEntity Part Part Link(Part,TypVariante) type database database database DifferenzialLoad size_max 200GB/Month 300GB/Month 5GB/Month size_min 140MB/Month 270GB/Month 4GB/Month 32
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung Fahrzeugteile interface CarParts TableName Core.Assembly Description Teilinformation als Parent Child Table FeldName Description DataType isnull isconf ismanuell PartID TeileID char(32) 0 0 0 ParentID Teilegruppe,modul char(32) 1 0 0 PartTypID Typreferenz bigint 0 0 0 ProdDate Herstellungsdatum timestamp 0 0 0 ManufacturerCD Hersteller Code char(6) 0 0 0 ChargeCD chargenNummer varchar(24) 1 0 0 Qualitätsmangelbericht QualityConstraint Link varchar(128) 1 1 0 33
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung Fahrzeugteile interface CarParts TableName Core.Parts.Price Description Preisinformation für Teile und Baugruppen mit zeitlicher Eingrenzung FeldName Description DataType isnull isconf ismanuell PartID TeileID char(32) 0 1 0 Price Preis decimal(12,2) 0 1 0 Curr Währungscode char(3) 0 1 0 ValidFrom Gültigkeit von timestamp 0 1 0 Flag ob Price nur auf ModulPrice Module-level bool 1 1 0 34
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung Fahrzeugteile interface TableName Core.PartsByVariant Description Preisinformation für Teile und Baugruppen mit zeitlicher Eingrenzung FeldName Description DataType isnull isconf ismanuell PartID TeileID char(32) 0 0 0 VariantID Autovariante int 0 0 0 ValidFrom Gültigkeit von timestamp 0 0 0 35
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung Werkstattberichte Interface Name Werkstattbericht Type sftp Count Tables/Files 5 IBM Host Refstore File Source System Interface Source Adress sftp://rfs/Werkstattnetz Authentication sysqsUser, PKI frequency weekly time Friday 5pm encrypted yes compressed .zip security class 5 36
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung Werkstattberichte interface Werkstattberichte fileName Auftraege_.zip Teile_.zip Garantie_ description Garantieleistung bei einer AngenommeneAufträge Eingebaute Ersatzteile Reparatur BusinessEntity Auftrag Link Position type csv csv csv code UTF8 UTF8 UTF8 size_max 500GB 2GB 500MB size_min 250GB 256MB 100MB Header yes yes yes RowDelimiter ColumnDelimiter Semikolon Semikolon Semikolon 37
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung Werkstattberichte interface Werkstattberichte fileName Rechnungen_.zip Positionen_.zip description Rechnungen pro Einzelpositionen auf Reparatur Rechnungen BusinessEntity Reparatur Position type csv csv code UTF8 UTF8 size_max 50GB 500GB size_min 12GB 80GB Header yes yes RowDelimiter ColumnDelimiter Semikolon Semikolon 38
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung Werkstattberichte interface Werkstattberichte fileName Auftraege_.zip isnul FeldName Description DataType l isconf ismanuell Auftrags Nr lt AuftragsNr Werkstattbuchungssystem bigint 0 0 1 Werkstattcode eindeutiger Werkstattcode nchar(6) 0 0 1 Kunden Nr lt KundenNr Werkstattbuchungssystem int 0 1 1 FIN FGST Nr nchar(17) 0 0 1 Kennzeichen KFZ nchar(16) 1 1 1 Auftragstext verbale Auftragsbeschreibung ntext 1 0 1 link zum jpg scan des Auftrags Scanlink im zentralen DMS nvarchar(256) 0 0 0 39
Anwendungsfall: Autohersteller - Qualitätssicherung Beispiel Schnittstellenbeschreibung Werkstattberichte interface Werkstattberichte fileName Teile_.zip FeldName Description DataType isnull isconf ismanuell Auftrags Nr lt Werkstattbuchungssyste AuftragsNr m bigint 0 0 1 eindeutiger Werkstattcode Werkstattcode nchar(6) 0 0 1 BestellNr bigint 1 0 0 Kunden Nr lt Werkstattbuchungssyste KundenNr m nchar(12) 0 1 1 FIN FGST Nr nchar(17) 0 0 1 Kennzeichen KFZ nchar(16) 1 1 1 PartID Teile Nr nchar(32) 0 0 1 link zum jpg scan des Auftrags im zentralen PartSalesPrice DMS decimal(8,2) 1 0 1 40
Anwendungsfall: Autohersteller - Qualitätssicherung Staging Modell Importiere Daten „wie erwartet“ • Datentypen lt. Schnittstellenbeschreibung (typ Validierung) • Isnull Eigenschaft zur Identifikation von ISNull Verletzungen • PK Definition zur Vermeidung von Duplikaten (abhängig vom DBMS) • Metadaten (Load info) • Informationen aus Filenamen 41
Anwendungsfall: Autohersteller - Qualitätssicherung Staging Modell CARPARTS_PartsByVariant CARPARTS_Assembly WERKSTBER_Teile WERKSTBER_Auftraege PartID PartID AuftragsNr AuftragsNr VariantID ParentID WerkstattCode WerkstattCode ValidFrom ParTypID BestellNr KundenNr LOADID ProdDate KundenNr FIN ManufacturerCD FIN Kennzeichen ChargeCD Kennzeichen Auftragstext QualityConstraint PartID Scanlink CARPARTS_Price LoadID PartSalesPrice Week PartID Week LoadID Price LoadID Curr Modulprice ValidFrom KFZSB_prodInfo KFZSB_typeinfo FIN FIN AuslId HNR Proddt AuslID TypID Orderdate VarID StArrDt QRId SalesDt OrderID CustNm ColorCode CustCity CMod1 CustPCode CMod2 CustAdress CMod3 Day Day LOADID LOADID 42
Anwendungsfall: Autohersteller - Qualitätssicherung Dimensionales Modell Read optimiertes Model Fakten und Dimensionen Nicht normalisiert Identifikation Entities-> Fakten und Dimension Pkeys, Surrogate KEys Anpassen der Datentypen Historisierung FK Referenzen 43
Anwendungsfall: Autohersteller - Qualitätssicherung Dimensionales Modell dimCar CarID FIN AuslId Proddt TypID VarID QRId ColorCode FACT_SALES CMod1 CarID CMod2 HNR CMod3 Orderdate validfrom StArrDt validto dimTime SalesDt Column Name Data Type CustID day date month nchar(10) MapCarPart week nchar(10) mapID year int FACT_Auftraege dimPartID AuftragsNr Fact_Teile carID AuftragsNr WerkstattCode ValidFrom BestellNr KundeID validto KundenID CarID LOADID PartID Auftragstext PartSalesPrice Scanlink Executiondate AuftrDate Dim_Kunde CustID dimPart CustNm dimPartID CustCity dimPrice PartID dimPriceID CustPCode ParentID dimPartID CustAdress ParTypID PartID validfrom ProdDate Price validto ManufacturerCD Curr ChargeCD Modulprice QualityConstraint ValidFrom validfrom validto validto 44
Kontakt Adastra Deutschland Niedenau 36 60325 Frankfurt a.M. Tel.: 069 – 71 37 79 790 E-Mail: infoDE@adastragrp.com www.de.adastragrp.com Jens Fache Senior Solution Architekt E-Mail: Jens.Fache@adastragrp.com Dr. Michael Simora Data Scientist / BI Consultant E-Mail: Michael.Simora@adastragrp.com 45
Sie können auch lesen