HYBRIDE DATENARCHITEKTUREN - als Grundlage für ein modernes Data Warehouse - iRIX Software ...

Die Seite wird erstellt Karina Janßen
 
WEITER LESEN
HYBRIDE DATENARCHITEKTUREN - als Grundlage für ein modernes Data Warehouse - iRIX Software ...
HYBRIDE
 DATENARCHITEKTUREN

 E-Book
als Grundlage für ein modernes Data Warehouse

Autor: Georg Franzke tdwi.eu
HYBRIDE DATENARCHITEKTUREN - als Grundlage für ein modernes Data Warehouse - iRIX Software ...
Herausgeber

 SIGS DATACOM GmbH
 Lindlaustraße 2c
 53842 Troisdorf

 info@sigs-datacom.de
 www.sigs-datacom.de

 Copyright © 2019 SIGS DATACOM GmbH
 Lindlaustr. 2c
 53842 Troisdorf

Die vorliegende Publikation ist urheberrechtlich geschützt. Alle Rechte vorbehalten. Die Verwen-
dung der Texte und Abbildungen, auch auszugsweise, ist ohne die schriftliche Zustimmung des He-
rausgebers urheberrechtswidrig und daher strafbar. Dies gilt insbesondere für die Vervielfältigung,
Übersetzung oder die Verwendung in elektronischen Systemen.
Es wird darauf hingewiesen, dass die in der Broschüre verwendeten Soft- und Hardware-Bezeich-
nungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen
warenzeichen-, marken- oder patentrechtlichem Schutz unterliegen. Alle Angaben und Program-
me in dieser Broschüre wurden mit größter Sorgfalt kontrolliert. Weder Autor noch Herausgeber
können jedoch für Schäden haftbar gemacht werden, die im Zusammenhang mit der Verwendung
dieser Broschüre stehen.
Wo nicht anders angegeben, wurde auf die im Text verlinkten Quellen zurückgegriffen.

TDWI E-Book in Kooperation mit
HYBRIDE DATENARCHITEKTUREN - als Grundlage für ein modernes Data Warehouse - iRIX Software ...
ZUM
 INHALT

 Inhalt
Inhalt

 1 Einleitung4

 2 
 Eckpunkte einer Data-Warehouse-Modernisierung8
 2.1 Agile-Entwicklung 8
 2.2 Plattform vs. „Best-of-Breed” 9
 2.3 Interaktionen von Komponenten 11
 2.4 InMemory-Verarbeitung 14
 2.5 Kosten-Nutzen-Betrachtung 15

 3 
 Betrachtung auf Architekturebene17
 3.1 Datenanbindung 17
 3.2 Datenmodellierung 25
 3.3 Datenspeicher 27
 3.4 Datenqualität 29
 3.5 Berichtswesen 35
 3.6 Auswertungen 37

 4 Schlussbetrachtung39

 Abkürzungsverzeichnis41

 Literaturverzeichnis42

 Über unsere Sponsoren 43
HYBRIDE DATENARCHITEKTUREN - als Grundlage für ein modernes Data Warehouse - iRIX Software ...
ZUM
 INHALT

 1 Einleitung

Die Welt der IT verändert sich! Das Volumen verfüg- schneller. Aktuell kann von folgender Erkenntnis aus-
barer Daten wächst aufgrund von Digitalisierung gegangen werden:
und zunehmender Verwendung von Sensoren immer

„Die weltweite Datenmenge wird von rund 33 Zettabyte (ZB) im Jahr 2018 auf 175
ZB im Jahr 2025 steigen – also jedes Jahr um circa 27 Prozent.“ 1

Die Verfügbarkeit von Daten steigt! Auf der anderen sich ständig ändernden Werten, was die Vergleich-
Seite sollen diese Datenmengen den Anwendern und barkeit von Ergebnissen erschwerte. Weiterhin wollte
analytischen Methoden immer häufiger in kürzerer man mehr Daten, z. B. mehr historische Daten, abfra-
Zeit zur Verfügung stehen. gen und auch Änderungen nachvollziehen können, so
 dass sich neue Speicherformen etablierten. Es waren
Diese Herausforderung der stetig steigenden Daten- die Anfänge der Data-Warehouse-Systeme in der
mengen und der immer kürzeren Zyklen der Verfügbar- Breite. Daten wurden nun nicht mehr nach speich-
keit gilt es mit modernen Data-Warehouse-Architekturen erorganisatorischen Gesichtspunkten abgelegt (3NF),
in den Griff zu bekommen. sondern es wurden Speicherformen genutzt, die eine
 Vereinheitlichung der verschiedenen Quellsysteme
Schon seit der Einführung der EDV-Systeme in den und die Zeitorientierung beinhalteten und/oder eine
1970ern hat man sich mit der Auswertung der ent- möglichst schnelle und einfache Abfrage durch den
sprechenden Daten beschäftigt. Dies erfolgte häufig Endanwender ermöglichten (OLAP).2 Viel diskutiert
auf Basis der gespeicherten Daten direkt aus dem wurden die Speicherungen nach Inmon oder Kim-
operativen EDV-System. ball und deren Vor- und Nachteile.3 Daten wurden
 der jeweiligen Anforderung entsprechend in einem
Benannt wurden diese Systeme häufig als Manage- Schichtmodell abgelegt. Sammelschichten wurden
ment-Information-Systeme (MIS) oder Decision-Sup- dabei meist in normalisierter Form gehalten, und je
port-Systeme (DSS). Dabei ging es vor allem darum, weiter die Daten in die Abfrageschichten überführt
die nun in elektronischer Form gespeicherten Daten wurden, wurde eine Speicherung überwiegend in
auch für Auswertungen besser nutzen zu können. OLAP-Form gewählt.

Mit der fortschreitenden Nutzung der Daten Ende der Ziel einer Data-Warehouse-Architektur war somit, die
1980er / Anfang der 1990er erkannte man, dass die Daten im Unternehmen so aufzubereiten, dass man
Speicherform in 3NF für die schnelle Abfrage nicht diese einfach und umfänglich für Analysen nutzen
geeignet war. Weitere Herausforderungen waren die konnte. Aus dieser Zeit stammte auch die Unterschei-
ständigen Änderungen, die in den operativen Syste- dung nach Einsatzzweck der verschiedenen Werkzeu-
men erfolgten – diese führten in den Berichten zu ge für den Aufbau eines Analysesystems:

1
 Weitere Informationen zu den Datenvolumen unter https://www.iwd.de/artikel/datenmenge-explodiert-431851/
 (Entnommen am 27.09.2019).
2
 Mehr zu den Speicherarten in Kap. 3.2. Datenmodellierung.
3
 Ein Vergleich der Ansätze ist zu finden unter
 https://www.zentut.com/data-warehouse/kimball-and-inmon-data-warehouse-architectures/.

  3 4 5 
HYBRIDE DATENARCHITEKTUREN - als Grundlage für ein modernes Data Warehouse - iRIX Software ...
ZUM
 INHALT

 1 Einleitung

 ETL Prozess Reporting

 ETL1 ETL2

 Data Warehouse

Quellsysteme Ergebnis-
 Data Marts
 darstellung

Abbildung 1: Beispiel einer klassischen Data-Warehouse-Architektur.

Abbildung 1 zeigt den Aufbau einer klassischen Data- darin, die Daten aus den unterschiedlichen Quellsys-
Warehouse-Architektur als Grundlage für die späte- temen eines Unternehmens so aufzubereiten, dass
re Auswertung. Dabei haben sich als Unterscheidung diese erst auswertbar wurden. Was auf den ersten
für den jeweiligen Einsatzbereich die Begriffe Data Blick einfach klingt, war aber sehr kompliziert. Dies
Warehouse und Data Mart durchgesetzt. Als Data lag vor allem daran, dass die datenliefernden Sys-
Warehouse hat man dabei eine zentrale Datenspeiche- teme ursprünglich nur nach den Anforderungen der
rung für das gesamte Unternehmen bezeichnet, wäh- operativen Systeme erstellt wurden. Selten bis gar
rend Datenspeicherungen für eine Abteilung oder eine nicht wurden dabei Anforderungen anderer Systeme
spezielle Fragestellung Data Marts genannt wurden. berücksichtigt. Dies führte dazu, dass Daten unter-
 schiedlich granular und mit unterschiedlichen Refe-
Mitte der 1990er setzte sich auch in Deutschland renzdaten in den operativen Systemen gespeichert
mehr und mehr der Begriff Business Intelligence – wurden. Diese Unterschiede mussten nun im zentra-
geprägt durch Gartner – für Auswertungssysteme len Data Warehouse ausgeglichen und standardisiert
durch. Hierbei wird der Fokus mehr auf die Nutzung werden. Auch wurden und werden leider auch heute
der Daten gelegt als auf die IT-technische Struktur, noch die Missstände der Dokumentation bezogen auf
wie dies bei Data Warehouse oder Data Mart der Fall die reale Datenspeicherung deutlich sichtbar. Viel-
war. Häufig wurden die Werkzeuge, die für die Ergeb- fach wurde wahrgenommen, dass die ETL-Prozesse
nisdarstellung Verwendung fanden, als BI-Werkzeuge zwar fehlerfrei durchlaufen wurden, die Daten in
bezeichnet, und das, obwohl sie nur einen kleinen der Ergebnisdarstellung aber fehlerhaft waren. Dies
Teil des Gesamtprozesses darstellten. lag sehr häufig an der Dokumentations- und Daten-
 qualität der verwendeten Quellsysteme. Am einzel-
Eine der wesentlichen Aufgaben eines Data- nen Datensatz sind Fehler schnell zu erkennen, bei
Warehouse-Systems in der Anfangszeit bestand der maschinellen Verarbeitung von Millionen von

  4 5 6 
HYBRIDE DATENARCHITEKTUREN - als Grundlage für ein modernes Data Warehouse - iRIX Software ...
ZUM
 INHALT

 1 Einleitung

Datensätzen sind diese aber im ETL-Prozess nicht 1. Für die Auswertung werden neben den Unter-
immer prüfbar, weshalb Fehler im Datensatz zu in- nehmensdaten auch externe Daten benötigt, die
haltlich falscher Verarbeitung führen konnten. Wenn vereinzelt nur in bestimmten Bereichen genutzt
z. B. Kunden Verkaufsbezirken zugeordnet werden werden. Daher wird eine Aufnahme von externen
sollten, aber Adressen keinen Verkaufsbezirk hatten, Daten durch die Fachanwender erforderlich.
dann konnte es unter Umständen dazu führen, dass 2. Es gibt eine Vielzahl an Daten, die zwar verfüg-
diese Kunden nicht verarbeitet wurden. bar sind, wo jedoch aktuell kein Anwendungsfall
 vorliegt, weshalb der Aufbau eines Data Marts
Diese in den 1990ern gestaltete Data-Warehouse-Ar- nicht sinnvoll ist. Um diese Daten trotzdem ein-
chitektur hatte über viele Jahre bestand. An vielen fach verfügbar zu machen, sind entsprechende
Stellen wurde immer weiter verfeinert, parallelisiert Data-Lake-Architekturen entstanden, die in einer
und die starke Nutzung von Hauptspeicher für hö- Data-Warehouse-Architektur zu berücksichtigen
here Verarbeitungsgeschwindigkeiten eingeführt, sind.
die Anzahl der Ergebnisdarstellungen erhöht sowie 3. In den vergangenen Jahren haben sich die
immer mehr in Analytics investiert, aber im Grunde Cloud-Infrastrukturen etabliert. Durch die dort
blieb es bei der oben dargestellten Architektur. vorherrschende Preisstruktur und die flexible
 Anpassung an Soft- und Hardwareanforderun-
Dies hat sich in den letzten Jahren massiv verändert. gen wird immer mehr der bestehenden Data-
Die folgenden Anforderungen führen zu einer Verän- Warehouse-Architektur aus Kostengründen in die
derung der Architekturen: Cloud migriert.

 Data Lake

 Cloud A Cloud B
Abbildung 2: Neue Herausforderungen der Data-Warehouse-Architektur.

  5 6 7 
HYBRIDE DATENARCHITEKTUREN - als Grundlage für ein modernes Data Warehouse - iRIX Software ...
ZUM
 INHALT

 1 Einleitung

Bei der Integration neuer Techniken geht es vor al- anschließend die einzelnen Bausteine einer Data-
lem um die behutsame Weiterentwicklung bestehen- Warehouse-Architektur dargestellt und beschrieben
der Strukturen und nicht um deren Ablösung. werden. Dabei wird herausgearbeitet, was sich dort
 an Herausforderungen gegenüber der zuerst gezeig-
Jedoch werden Daten für viele Firmen immer kriti- ten Architektur ergibt und warum es aus nutzenori-
scher, und je früher man auf mögliche Erkenntnisse entierter Sicht sinnvoll erscheint, diese Änderungen
reagieren kann, umso größer ist der Nutzen. Aus die- durchzuführen.
sem Grund werden immer mehr Firmen versuchen,
die Architektur so weiter zu entwickeln, dass der Nut- Das Ziel einer modernen Data-Warehouse-Archi-
zen sich erhöht. Und am Nutzen sollten sich immer tektur ist es, sehr flexibel auf neue Anforderun-
alle Änderungen messen lassen. gen reagieren zu können, den Nutzen weiter zu
 erhöhen und dabei möglichst kosteneffizient zu
Im Folgenden sollen die Eckpunkte einer nutzen- bleiben. Dies sind die treibenden Faktoren der
orientierten Weiterentwicklung aufgezeigt und Data-Warehouse-Modernisierung.

  6 7 8 
HYBRIDE DATENARCHITEKTUREN - als Grundlage für ein modernes Data Warehouse - iRIX Software ...
ZUM
 INHALT

 2 Eckpunkte einer Data-Warehouse-Modernisierung

Bevor mit der technischen Beschreibung einer Data-
Warehouse-Modernisierung begonnen werden kann, sollten
die Eckpunkte erklärt werden, die wesentlich für bestimmte
Änderungen innerhalb der Architektur verantwortlich sind.
Nur so lässt sich in einem weiteren Schritt abwägen, welche
der Änderungen für ein Unternehmen sinnvoll sind und wel-
che nicht. Nicht immer ist alles für jeden gleich wichtig.

2.1 Agile-Entwicklung
An dieser Stelle soll nicht über Agile-Entwicklung im vergleichbar mit Lego-Bausteinen. Durch definierte
im Allgemeinen gesprochen werden. Vielmehr sollen Verbindungen können die Bausteine für viele ver-
die Gedanken hinter der agilen Entwicklung aufge- schiedenste Konstruktionen genutzt werden.4
griffen und für die Data-Warehouse-Entwicklung ad-
aptiert werden. Wichtig wird es am Ende sein, dass nicht ein Tool al-
 le benötigten Funktionen beinhaltet, um ausgewählt
Waren Data-Warehouse-Systeme in der Anfangs- werden zu können, sondern dass ein Unternehmen
zeit auf eine gewisse Stabilität und damit auch auf für alle Funktionen entsprechende Tools zur Verfü-
zeitliche Vergleichbarkeit ausgelegt, steigen die An- gung hat. Es kann sein, dass ein Unternehmen mit nur
forderungen heute immer mehr. So müssen sich die einem Tool für seine Funktionsanforderungen aus-
Datenauswertungssysteme schnell an neue Gege- kommt. Vermutlich wird es aber so sein, dass immer
benheiten anpassen, also agil gehalten werden. mehr Unternehmen mehrere Tools für die einzelnen
 Bereiche einsetzen, um die Funktionsanforderungen
Wer heute versucht, ein Data Warehouse nach Schich- abzudecken.
ten aufzubauen, wird scheitern, da die Zeit gegen ei-
nen arbeitet. Komplette Planungen pro Schicht, von Mit Hilfe einer umfassenden API-Verwaltung kann
der Anbindung der Quellsysteme über einen Opera- dann sichergestellt werden, dass die Nutzung der
tional Data Store (ODS) als erste Datensammlung, Funktionen zeitnah gelingen kann.
dann DWH und Data-Mart bis hin zum Bericht, sind
sehr aufwändig. Um sowohl in der Entwicklung als Letztendlich sollte aber auch immer beachtet werden,
auch später in der Wartung nichts an Agilität zu ver- dass eine größere Anzahl von Tools die Komplexität
lieren, sollten die Systeme so aufgebaut werden, dass von Administration und Anzahl von Programmier-
entsprechende Schnittstellen zwischen den Syste- sprachen erhöht. Daher sollten die Unternehmen be-
men klar definiert sind, Verantwortlichkeiten granu- müht sein, die Anzahl nicht zu groß werden zu lassen.
lar festgelegt sind und immer das Thema Flexibilität
im Fokus behalten wird. Auf der anderen Seite hat die Nutzung von mehr als
 einem Tool für einen Bereich den Vorteil, dass sich ein-
Weiterhin wird es notwendig, Data-Warehouse-Ar- zelne Tools leichter austauschen lassen, da es entspre-
chitekturen nicht nach Tools zu planen; also ein Tool chende Alternativen in dem Bereich gibt. Nutzt ein
für ETL, eines für die Datenhaltung, eines für das Be- Unternehmen mehr als ein Reporting-Tool, kann bei
richtswesen, etc. Eine Planung sollte vielmehr nach Ausfall des einen Tools erstmal auf ein anderes umge-
Funktionen und der Möglichkeit erfolgen, diese auch stiegen werden. Dies ist dann nicht funktionsoptimal,
toolübergreifend zu nutzen, z. B. über offene APIs – jedoch agil im Ersetzen ausgefallener Technologien.

4
 Pattern Based Design (Idee basiert auf den Ausführungen von Roelant Vos) entnommen dem Vortrag von Christian Hädrich,
 „Virtual Enterprise Data Warehouse oder: Warum Sie wirklich eine PSA (Persistent Staging Area) für Ihr DWH wollen“,
 Vortrag auf dem 33. TDWI Roundtable Hamburg, 15.08.2019.

  7 8 9 
HYBRIDE DATENARCHITEKTUREN - als Grundlage für ein modernes Data Warehouse - iRIX Software ...
ZUM
 INHALT

 2 Eckpunkte einer Data-Warehouse-Modernisierung

Zusammenfassung
Agilität wird im Zusammenhang von Data- angepasst werden können, die Kosten sich eng am
Warehouse-Architekturen immer wichtiger. Dabei Nutzen orientieren und wenn die methodische Um-
sind sowohl Datenmengen und -strukturen als auch setzung ein agiles Vorgehen erlaubt. Besonders im
fachliche Themen immer wieder neu zu integrieren. Bereich der Datenmodellierung hat sich hier ein neu-
 es Vorgehen etabliert, welches später noch beschrie-
Diese Anforderungen lassen sich nur umsetzen, ben wird.
wenn die Hardware- und Softwarearchitekturen agil

2.2 Plattform vs. „Best-of-Breed” 5
In diesem Abschnitt soll eine alte, aber weiterhin wich- Hierzu ist es heute wichtiger denn je, sich mit den
tige Diskussion aufgegriffen werden: Ist es besser, eine Hintergründen dieser Diskussion zu beschäftigen.
integrierte Data-Warehouse-Plattform zu verwenden, Beide Möglichkeiten haben entsprechende Vor- und
oder sollte man sich für jeden Bereich das jeweils bes- Nachteile, die in der folgenden Tabelle aufgelistet
te Tool aussuchen („Best-of-Breed“ genannt)? werden:

 Funktion DWH-Plattform Best-of-Breed
 Administration einheitlich spezifisch für jedes eingesetzte Tool
 Schnittstellen abgestimmt spezifisch für jedes eingesetzte Tool
 Funktionsumfang abgestimmt meist pro Bereich höher als Plattform
 Programmierung einheitlich spezifisch für jedes eingesetzte Tool
 Metadaten plattformeinheitlich tooleinheitlich
 Austauschbarkeit meist nur komplett jedes Tool einzeln austauschbar

Im Folgenden werden die dargestellten Punkte kurz Schnittstellen
erläutert, bevor eine Zusammenfassung erfolgt. Bei einer Data-Warehouse-Plattform sind die Schnitt-
 stellen aufeinander abgestimmt, und bei einem
Administration Releasewechsel müssen diese nicht neu getestet
DWH-Plattformen haben den Vorteil, dass sie sich werden, da es die Aufgabe eines DWH-Plattformher-
über eine einheitliche Administrationsumgebung stellers ist, dies sicherzustellen. Weiterhin müssen
steuern lassen. So sind die Aufwände für die IT z. B. Zugriffe auf Datenhaltungen nur einmal definiert
meist einfacher zu steuern. Weiterhin sind über werden und stehen allen Komponenten der Plattform
entsprechende Gruppenrichtlinien auch funk- zur Verfügung.
tionsübergreifende Administrationstätigkeiten
ausführbar, so dass nicht in jedem Bereich neu ad- Bei einem „Best-of-Breed“-Ansatz müssen für alle
ministriert werden muss. An dieser Stelle haben die verwendeten Tools die entsprechenden Zugriffe er-
Plattformen einen großen Vorteil gegenüber einer stellt und administriert werden. Weiterhin müssen
„Best-of-Breed“-Umgebung. die Schnittstellenvoraussetzungen für jedes Tool

5
 Definition „Best-of-Breed“ siehe https://www.it-business.de/was-ist-best-of-breed-a-769845/ (entnommen am 26.04.2019).

  8 9 10 
HYBRIDE DATENARCHITEKTUREN - als Grundlage für ein modernes Data Warehouse - iRIX Software ...
ZUM
 INHALT

 2 Eckpunkte einer Data-Warehouse-Modernisierung

geprüft und gewartet werden. Ändern sich diese Metadaten
Schnittstellenvoraussetzungen bei einem Tool – z. B. Zu allen Tools und Prozessen werden im Allgemei-
ein Reportingtool unterstützt die aktuell eingesetzte nen auch entsprechende Metadaten erzeugt. Um die-
Datenbankversion nicht mehr –, dann müssen even- se übergreifend nutzen zu können, ist eine zentrale
tuell weitere Änderungen an der Architektur vor- Ablage der Metadaten Voraussetzung.
genommen werden. Auf der anderen Seite können
„Best-of-Breed“-Tools einzeln gewechselt werden, DWH-Plattformen bringen diese Voraussetzung mit.
was den Testaufwand6 im Verhältnis zum Wechsel ei- Bei den „Best-of-Breed“-Tools muss diese Vorausset-
ner ganzen DWH-Plattform verringert. zung erst geschaffen werden, was jedoch mit erheb-
 lichen Aufwänden oder Einschränkungen verbunden
Funktionsumfang sein kann.
Aufgrund der Beschränkung der „Best-of-Breed“-Tools
auf bestimmte Bereiche haben sich häufig sehr gro- Einschränkungen deshalb, weil es bisher nur sehr
ße Funktionsumfänge innerhalb dieser Bereiche her- rudimentäre Standards für den Metadatenaustausch
ausgebildet. Der Funktionsumfang und meist auch gibt. Da nur standardisierte Objekte unterstützt wer-
eine einfachere Bedienung waren und sind die gro- den, werden allgemein nur sehr minimale Standards
ßen Vorteile von „Best-of-Breed“-Tools. geschaffen, so dass die toolübergreifende Nutzung
 mit entsprechenden Einschränkungen einhergeht.
Bei Data-Warehouse-Plattformen wird ein Teil der
Entwicklung auf plattformspezifische Funktio- Möchte man mehr als die minimalen Standards nut-
nen konzentriert und Teile des Funktionsumfangs zen, muss man einen erheblichen Aufwand betrei-
werden in Bezug auf die gesamte Plattform ent- ben, um die zusätzlichen Metadaten zentral ablegen
wickelt, so dass sich hier feststellen lässt, dass der zu können. Dieser Aufwand ist nicht nur einma-
bereichsspezifische Funktionsumfang meist gerin- lig zu erbringen, sondern nach jeder Änderung von
ger ist als bei „Best-of-Breed“-Tools. Dafür haben Metadatenstrukturen.
Data-Warehouse-Plattformen zusätzliche plattform-
übergreifende Funktionen, die im „Best-of-Breed“- Festzuhalten ist, dass die Metadaten möglicherweise
Ansatz so nicht vorhanden sind. im Bereich DWH-Plattform geringer ausfallen, jedoch
 die bereichsübergreifende Nutzung hier im Standard
Programmierung möglich ist und häufig auch den entscheidenden
Bei den „Best-Of-Breed“-Tools werden meist spezifi- Vorteil gegenüber den „Best-of-Breed“-Tools brachte.
sche Programmier- oder Makrosprachen eingesetzt.
Das kann dazu führen, dass bei einer größeren An- Um einen Metadaten-Austausch zwischen verschie-
zahl von verschiedenen Tools auch die Anzahl der denen Tools zu ermöglichen, wurde und wird an ent-
Programmiersprachen wächst, was die übergreifende sprechenden Standards gearbeitet. Ein bekannter,
Nutzung und Dokumentation erschwert. aber bisher nicht wirklich erfolgreicher Standard ist
 das „Common-Warehouse-Metamodel“-Austausch-
Bei DWH-Plattformen wird meist nur eine Program- format.7 Seit kurzer Zeit versucht sich ein weiterer
miersprache eingesetzt, was eine bereichsübergrei- Standard zu etablieren, der „Egeria“-Standard für den
fende Nutzung ermöglicht. So kann zum Beispiel offenen Metadaten-Austausch.8 Hilfreich für den Me-
eine Score-Berechnung aus dem analytischen An- tadaten-Austausch sind auch bestimmte Tools, die
wendungsbereich schon innerhalb einer ETL-Verar- sich vertieft diesem Thema widmen und die Bestand-
beitung erfolgen. teil einer „Best-of-Breed“-Architektur sein sollten.

6
 Mehr zum Thema Testen von Data-Warehouse-Systemen in Stauffer/Honegger/Gisin (2013),
 „Testen von Data-Warehouse- und Business-Intelligence-Systemen“, dpunkt.verlag.
7
 Mehr zu CWM unter https://de.wikipedia.org/wiki/Common_Warehouse_Metamodel.
8
 Mehr zu Egeria unter
 https://www.odpi.org/announcements/2018/08/27/odpi-announces-egeria-for-open-sharing-exchange-and-governance-of-metadata.

  9 10 11 
ZUM
 INHALT

 2 Eckpunkte einer Data-Warehouse-Modernisierung

Austauschbarkeit Es wird also zwangsläufig auf einen „Best-of-Breed“-
Dieser Punkt ist sicher einer der Bereiche, mit denen Ansatz hinauslaufen. Hier kann eine umfangreiche
sich Entscheider bisher kaum bis gar nicht befasst Data-Warehouse-Plattform sehr wohl auch eine Kom-
haben. Betrachtet man jedoch die Historie, so ist fest- ponente einer „Best-of-Breed“-Strategie sein. Dabei
zuhalten, dass es durchaus Tools gab, die vom Markt sollte man die Vorteile einer Plattform im Auge behal-
verschwunden sind, als auch Tools, deren Weiterent- ten und sich künftig von folgendem Satz leiten lassen:
wicklung mehr als ins Stocken geraten ist.

Deshalb sollte man sich schon bei der Planung der
Data-Warehouse-Architektur Gedanken machen, wie So viele Tools wie nötig
sich einzelne Funktionsbausteine austauschen oder
 &
durch parallele Nutzung anderer Tools erweitern
lassen. so wenige Tools wie möglich

Je mehr die Schnittstellen und Datennutzung inner- Abbildung 3: Grundsatz der Toolauswahl.
halb der Funktionsbausteine klar voneinander abge-
grenzt und dokumentiert sind, desto einfacher lassen
sich Erweiterung oder Austausch von Funktionsbau-
steinen vornehmen. Hierbei ist es wichtig, sich die In- Jedes Tool, welches zusätzlich in die Data-
teraktionen von Komponenten anzuschauen, wie im Warehouse-Architektur aufgenommen werden soll,
folgenden Kapitel 2.3 beschrieben. muss einen entscheidenden Wertbeitrag leisten.
 Sollten sich die Funktionen auch mit bestehenden
Zusammenfassung Tools realisieren lassen, dann sind die Kosten mit
Die vielfältigen Anforderungen an eine moderne Data- dem Wertbeitrag abzuwiegen. Jedes zusätzliche Tool
Warehouse-Architektur führen dazu, dass eine Data- erhöht die Komplexität und damit die Aufwände für
Warehouse-Plattform kaum ausreichend ist. die Wartbarkeit.

2.3 Interaktionen von Komponenten
Eine moderne, vielschichtige Data-Warehouse-Ar- Data Warehouse oder ein Data Mart. Sowohl die ETL-
chitektur besteht aus einer Vielzahl an Tools, welche Tools als auch die Tools zur Berichterstellung oder
die benötigten Funktionen für den Betrieb zur Verfü- zur Analytik greifen auf die gemeinsame Datenhal-
gung stellen. Wichtig in diesem Zusammenhang ist tung zu. Im Einsatz befinden sich hier meist gängi-
die Frage nach der Zusammenarbeit der eingesetzten ge Datenbanken, da diese auch von einer Vielzahl an
Tools. Hier gibt es verschiedene Varianten, die kurz Tools unterstützt werden.
vorgestellt werden sollen:
 Mindestens eine der von der Datenbank zur Verfü-
Zusammenarbeit über die Datenhaltung gung gestellten Schnittstellen (nativ oder Standard
Die gängigste Form der Zusammenarbeit ist die Nut- wie z. B. ODBC) wird von den eingesetzten Tools
zung einer gemeinsamen Datenbasis, hier häufig das unterstützt.

  10 11 12 
ZUM
 INHALT

 2 Eckpunkte einer Data-Warehouse-Modernisierung

 korrekte und häufig noch angereicherte Adresse zu-
 rück. Der Datenaustausch erfolgt hier über entspre-
 chende APIs.

 Zusammenarbeit über die gruppenweise Daten-
 übergabe
 Bei manchen Funktionsbausteinen ist der Bedarf
 an Daten größer, so dass hier der Datenaustausch
 meist nicht über eine API, sondern über eine Datei
 Zentrale erfolgt. Das aufrufende Tool erzeugt eine Datendatei
Datenhaltung und startet dann den Prozess auf Seiten des verar-
 beitenden Tools. Das verarbeitende Tool liest die Da-
 tei und gibt das Ergebnis entweder auch über eine
 entsprechende Ergebnisdatei oder über den Funk-
 tionsraufruf wieder. Die folgende Grafik stellt den
 Datenaustausch über Dateien dar:

 Ergebnis

Abbildung 4: Zusammenarbeit über Datenhaltung.

Zusammenarbeit über die satzweise Datenübergabe
Bei dieser Variante der Zusammenarbeit wird von ei-
nem Tool jeweils ein Datensatz an ein weiteres Tool
übergeben, und bei Bedarf wird ein entsprechendes
 Funktions- Funktions-
Ergebnis zurückgeliefert:
 baustein A baustein B

 Daten
 Abbildung 6: Zusammenarbeit über gruppenweise
 Datenübergabe.

 Tool A Tool B
Abbildung 5: Zusammenarbeit über satzweise Datenübergabe.
 Zusammenarbeit mittels Filterübergabe
 Eine weitere Möglichkeit, die vor allem im Rahmen
 von Web-Anwendungen immer mehr Verbreitung
Tool A sendet einen Datensatz, den Tool B verarbei- findet, ist die Zusammenarbeit mit Hilfe von Filter-
tet und gegebenenfalls das Ergebnis zurück an Tool übergaben via Link. Hierbei nutzen die Tools jeweils
A sendet. ihre eigene Datenhaltung, mit dem Unterschied, dass
 Tool B zur Anzeige einen Filter von Tool A bekommt.
Als Beispiel kann hier die Adressprüfung angeführt Vergleichbar ist dies mit dem OLAP-Würfel, wo man
werden. Nur wenige Tools können auf entsprechende in der Dimension navigieren kann, jedoch ist hier der
Referenzdaten zurückgreifen. Häufig nutzt man ent- Unterschied, dass die Strukturen sich durchaus än-
sprechende Funktionsmodule. Diese bekommen die dern können. Selbst ein Sprung von einem Bericht in
bekannten Adressbestandteile und prüfen diese. Als die operative Anwendung ist möglich, z. B. aus der
Rückgabe erhält die aufrufende Funktionseinheit die Kundenliste direkt in den Kundendatensatz.

  11 12 13 
ZUM
 INHALT

 2 Eckpunkte einer Data-Warehouse-Modernisierung

Abbildung 7: Zusammenarbeit mittels Filterübergabe.

Ein weiterer Anwendungsfall könnte sein, dass man
in Tool A die DQ-Fehlerlisten sehen kann, mit Hilfe
eines Links im WEB-Bericht A direkt zu Tool B springt
und nun den Status zu den einzelnen Fehlern sehen
kann (Data Remediation).

GUI-Integration Abbildung 8: Zusammenarbeit über GUI-Integration.
In Zeiten, in denen immer mehr Endanwender-Tools
den Web-Browser als Frontend nutzen, nimmt die
Zusammenarbeit mittels einer GUI-Integration zu.
Genaugenommen ist dies keine neue Form der Zu- führen. Besonders wichtig wird die Frage nach der
sammenarbeit, sondern es werden lediglich die Zusammenarbeit, wenn man einen Funktionsblock
Ausgaben der verwendeten Programme in einer nicht mit nur einem Tool abdecken kann oder möch-
Oberfläche gebündelt. Im Idealfall merkt der Anwen- te. Hier gilt es zu klären, wie die Nutzung mehrerer
der nicht, dass er mit mehreren Programmen gleich- Funktionsbausteine möglichst automatisiert und für
zeitig arbeitet. Die folgende Grafik verdeutlicht die den Anwender optimiert werden kann.
entsprechende Architektur (siehe Abb. 8).
 Die Zusammenarbeit über die Datenhaltung ist sicher
Häufig wird diese Art der Zusammenarbeit mit dem eine grundlegende, jedoch auch eine sehr minimalisti-
Fall der Filterübergabe kombiniert. Wenn z. B. die Aus- sche. Um die Produktivität zu steigern und die Fehler-
gabe von Tool B von dem Ergebnis oder der Selektion anfälligkeit zu minimieren, sollten die anderen Formen
des Tools A abhängig ist, dann handelt es sich um der Zusammenarbeit geprüft und auch bevorzugt wer-
den Fall der Zusammenarbeit mittels Filterübergabe. den. Dies setzt aber voraus, dass die APIs bekannt und
Wenn die Ausgabe dann noch in einer GUI-Integra- unternehmensintern dokumentiert sind, besonders für
tion mündet, so hat der Anwender den Eindruck, es die Fälle, in denen die Tools oder eigene Programme
handele sich um nur eine Applikation statt um zwei. eigene API-Spezifikationen ermöglichen. APIs können
 sehr nützliche und produktivitätssteigernde Ansätze
Zusammenfassung darstellen. Leider beinhalten sie jedoch bei falscher
Da die Anzahl der Tools weiterhin zunehmen wird, Nutzung ein großes Fehlerpotential. Um einen Über-
sollten sich die DWH-Architekten die Möglichkeiten blick über die APIs zu erhalten, empfiehlt es sich, ent-
der Zusammenarbeit der Tools deutlich vor Augen sprechende API-Übersichten aufzubauen.

  12 13 14 
ZUM
 INHALT

 2 Eckpunkte einer Data-Warehouse-Modernisierung

2.4 InMemory-Verarbeitung
Viele Tools am Markt werben heute mit der InMemory- Notwendig vs. wählbar
Nutzung zur performanteren Verarbeitung großer Unter einer notwendigen InMemory-Struktur wird
Datenmengen. verstanden, dass Produkte nur jene Daten verarbeiten
 können, die sich zum Zeitpunkt der Verarbeitung im
Für den Anwender ist es jedoch häufig nicht er- Hauptspeicher befinden. Dies ist z. B. bei Berichtswerk-
sichtlich, welchen gesamtheitlichen Nutzen die zeugen sowie bei bestimmten Server-Verarbeitungen
angebotene InMemory-Funktion bietet. Dies ist der Fall. Bei einer notwendigen InMemory-Struktur
umso wichtiger, wenn die meist teureren InMemo- begrenzt der zur Verfügung stehende Hauptspeicher
ry-Funktionen nur für ein bestimmtes Tool genutzt die zu verarbeitende Datenmenge.
werden können.
 Unter einer wählbaren InMemory-Struktur wird ver-
Im Folgenden wird eine Klassifizierung der Speicher- standen, wenn man frei wählen kann, ob man Daten
verarbeitung eingeführt. Diese dient der Grundlage im Hauptspeicher halten möchte oder nicht. Als Bei-
einer Entscheidungsfindung, welche Art der Spei- spiel hierzu seien Data-Federation-Tools genannt, bei
chernutzung für den jeweiligen Anwendungsfall zu denen man entscheiden kann, ob diese eine einzelne
bevorzugen ist. Tabelle im Hauptspeicher halten (meist in Verbin-
 dung mit einer einstellbaren Refresh-Rate, die angibt,
Statisch vs. dynamisch in welchen Zyklen die Daten erneut von der Festplat-
Unter einer statischen InMemory-Verarbeitung wird te/Datenbank in den Hauptspeicher zu laden sind).
verstanden, dass die zu verarbeiteten Daten zu einem
bestimmten Zeitpunkt in den Hauptspeicher geladen Zusammenfassung
werden. Welche Daten das sind, ist vor der Nutzung InMemory ist nicht gleich InMemory! Es muss sehr
zu entscheiden. genau festgestellt werden, welche Tools von den
 InMemory-Funktionen profitieren. Weiterhin ist zu
Unter einer dynamischen InMemory-Verarbeitung klären, ob die generellen Vorteile von schneller In-
wird verstanden, wenn die Softwarekomponenten in Memory-Speicherung generell erhalten bleiben, trotz
der Lage sind, zur Laufzeit zusätzliche Daten in den eines eventuell längeren Transfers der Daten von der
Hauptspeicher zu laden, ohne dass der Anwender InMemory-Architektur zur Verarbeitungskomponente.
dies vorher veranlassen muss.
 Prinzipiell ist eine InMemory-Speicherung gut und
Geschlossen vs. offen sehr schnell, jedoch auch teurer im Verhältnis zu
Unter einer geschlossenen InMemory-Verarbeitung SSD-Speicher, der ebenfalls in den letzten Jahren
wird verstanden, wenn die Daten, die von einem schneller geworden ist, vor allem durch die Nutzung
Produkt im Hauptspeicher gehalten werden, nur für von entsprechenden BUS-Anschlüssen.
die Verarbeitung durch dieses Produkt zur Verfü-
gung stehen. Dies ist häufig bei Berichtswerkzeu- Berichtswerkzeuge, die eine eigene InMemory-Verwal-
gen der Fall. tung haben, bieten den Vorteil, dass die Datenhaltung
 und die Datenauswertung eng aufeinander abge-
Unter einer offenen InMemory-Verarbeitung wird stimmt sind und somit optimal zusammenarbeiten.
verstanden, wenn die Daten, die von einem Pro- Der Nachteil gegenüber einer InMemory-Datenhal-
dukt im Hauptspeicher gehalten werden, über Stan- tung ist, dass die Datenhaltung von Berichtswerkzeu-
dard-Schnittstellen auch anderen Produkten zur gen nicht anderen Tools zur Verfügung gestellt werden
Nutzung zur Verfügung gestellt werden. Dies ist z. B. kann. Somit ist die InMemory-Datenspeicherung auf
bei den InMemory-Datenbanken der Fall. die Nutzung mit genau einem Tool beschränkt.

  13 14 15 
-Speicherung gut und schnell, jedoch auch teurer im Verhältnis zu SSD-Speicher, der
 ZUM
 Jahren sehr schnell geworden ist, vor allem durch die Nutzung von entsprechenden INHALT

 2 Eckpunkte einer
 eigene InMemory-Verwaltung Data-Warehouse-Modernisierung
 haben, bieten den Vorteil, dass die Datenhaltung und die
nander abgestimmt sind und somit optimal zusammenarbeiten. Der Nachteil gegenüber
ng ist, dass die Datenhaltung von Berichtswerkzeugen nicht anderen Tools zur Verfügung
 2.5 Kosten-Nutzen-Betrachtung
 ist die InMemory-Datenspeicherung auf die Nutzung mit genau einem Tool beschränkt.
 Betrachtet man die Vorhersagen der weltweit zur V = Datenmenge für den betrachteten
 Verfügung stehenden Daten heute und in Zukunft,
 9
 Anwendungsfall
 die vor allem auf den immer häufiger automatisier- Q = Qualität der Daten für den betrachteten
 ten Entstehungspunkten wie IoT-Sensoren und der Anwendungsfall
 ständig zunehmenden Digitalisierung basieren, so- N = Nutzung der Daten für den betrachteten
 wie den Wunsch nach möglichst granularer und um- Anwendungsfall
nNutzen-Betrachtung
 fassender Datenspeicherung, wird deutlich, dass dem
 Thema der „Kosten-Nutzen“-Betrachtung besondere Der Wert von Daten für ein Unternehmen ergibt sich
 9
agen der weltweit zur Verfügung stehenden Daten heute
 Aufmerksamkeit gewidmet werden muss. undaus
 somit in Zukunft,
 der Summediealler
 vor allem
 Anwendungsfälle des
 figer automatisierten Entstehungspunkten wie IoT-Sensoren Produktes
 und aus
 die verwendeter
 der ständig Datenmenge, Qualität
 Schon heute sind die Kosten, die für eine Data- der verwendeten Daten und Nutzungsintensität der
g basierten, sowie der den Wunsch
 Warehouse-Architektur anfallen,nach enorm.möglichst
 Diese stei- granularer und umfassender
 betrachteten Anwendungsfälle.
tlich, dass
 gendem Thema
 mit dem der „Kosten-Nutzen“-Betrachtung
 zusätzlichen Bedürfnis, immer granula- besondere Aufmerksamkeit
 rere Daten über längere Zeiträume sowie zunehmend Aus dieser Formel wird ersichtlich, dass die Fak-
 externe Daten zu speichern. toren Datenmenge, Datenqualität und Datennut-
, die für eine Data Warehouse ArchitekturData-Warehouse-Architektur zung den Wert eines Data Warehouses
 anfallen, enorm. maßgeblich
 Ausgehend von der Annahme, dass die Kosten sich beeinflussen.
zlichen Bedürfnis, immer granularere Daten über längere Zeiträume sowie zunehmend
 nach dem gestiegenen Nutzen richten, soll vor allem
 dieser Nutzen greifbarer gemacht werden. Bei den Bezogen auf eine Data-Warehouse-Architektur füh-
 Kosten ist dies nicht nötig, da sich diese sehr leicht ren diese Faktoren zu folgenden Aussagen:
 e, dass die Kosten sich
 ermitteln lassen. nach dem gestiegenen Nutzen richten, soll vor
 1. Vielfältige allem dieser führt zu einem hö-
 Datenspeicherung
werden. Bei den Kosten ist dies nicht Nötignötig, da sich diese herensehr
 Wertleicht ermitteln
 der Daten!
 Bei einer „Kosten-Nutzen“-Betrachtung wird der Nut- 2. Eine höhere Qualität der Daten führt zu einem hö-
 zen durch den Wert der Daten wiedergegeben. Dies heren Wert der Daten!
 bedeutet, ein Unternehmen zieht seinen Nutzen aus
 Betrachtung wird der Nutzen durch den Wert der Daten3.wiedergegeben. Vielfältige Nutzungsmöglichkeiten führen zu ei-
 Dies bedeutet,
 dem Wert der Daten, den das Unternehmen mit den nem höheren Wert der Daten!
en Nutzen ausgeneriert.
 Daten dem Wert der Daten, den das Unternehmen mit den Daten generiert.
 10 Im Bereich der Nutzungsmöglichkeiten kristallisiert
 weise aus der folgenden Formel abgeleitet
 Dieser Wert lässt sich ansatzweise aus der folgenden werdenableiten: sich heraus, dass vor allem das Thema „Tempo“ sowohl
 Formel ableiten:
 10
 bei der Datenverfügbarkeit im System als auch bei der
 Nutzung aus dem System von entscheidender Bedeu-
 tung ist. Somit wird viel in den Bereich Verfügbarkeit
 (Stichwort near real-time) sowie in den Bereich per-
 ൌ ൌ ሺ ∗ ∗ ሻ formanter Nutzung (Stichwort InMemory) investiert.
 ൌͳ ൌͳ
 Alle Faktoren haben einen massiven Einfluss auf
 die Kosten der Data-Warehouse-Architektur. Wäh-
 W = Wert der Daten rend Geschwindigkeit (Tempo), Menge und Qua-
 U = Unternehmen lität möglichst einen hohen Wert erhalten sollen,
 UC = Use Case (Anwendungsfall) sind die Kosten für die Datenhaltung möglichst zu
 t = Betrachtung zum Zeitpunkt t minimieren.

 fall)

 kt t

 rachteten Anwendungsfall
 9
 Siehe hierzu Kap. 1 Einleitung.
en betrachteten
 10 Anwendungsfall
 In Anlehnung an einen LinkedIn-Beitrag von Martin Guther, VP SAP SE.

en betrachteten Anwendungsfall.  14 15 16 
ZUM
 INHALT

 2 Eckpunkte einer Data-Warehouse-Modernisierung

 Zusammenfassung
 Im Bestreben, immer weitere Nutzungsmöglichkeiten
 Max{Menge} zu schaffen, werden die Data-Warehouse-Architektu-
 ren immer weiter angepasst. Zum einen wollen die
 Anwender immer mehr Daten in immer kürzerer Zeit
 zur Verfügung haben, was die Data-Management-Pro-
 zesse zwangsläufig dynamischer gestalten wird. Zum
 anderen wollen Anwender weitere Methoden der Da-
 tenauswertung nutzen. Hier kommt es besonders im
 Min{Kosten} Bereich der Analyse zu neuen Anwendungsfällen, die
 zur Einführung neuer analytischer Tools und Metho-
 den der Zusammenarbeit führen. Auch werden durch
 die Möglichkeiten der InMemory-Verarbeitung neue
Max{Qualität} Max{Tempo} Anwendungsfälle entstehen, deren Einsatz wiederum
 die Nutzung der Daten erhöht.

Abbildung 9: Spannungsfeld zwischen Kosten und Wert
der Datenspeicherung.

  15 16 17 
ZUM
 INHALT

 3 Betrachtung auf Architekturebene

Nachdem die Eckpunkte einer Data-Warehouse-Architektur
erläutert wurden, soll im Folgenden dargestellt werden, wel-
chen Einfluss dies auf die allgemeine Data-Warehouse-Ar-
chitektur mit sich bringt.

3.1 Datenanbindung
Daten wurden in der Vergangenheit immer zunächst Um nun eine frühere Datenbereitstellung für den
in einer Datenbank oder in einer einfach strukturier- Nutzer zu ermöglichen, werden immer häufiger
ten Datei gespeichert, bevor diese weiterverarbeitet Funktionen zur Beschleunigung der Datenverfügbar-
wurden. Die bisherigen Herausforderungen der Da- keit genutzt. Folgende Techniken kommen dabei im
tenanbindungen waren dabei die Vereinheitlichung ETL-Umfeld häufig zum Einsatz:
von Zeichensätzen, der Beschreibung von Objekten,
von Spaltenformaten und der Sprache. • Parallelisierung
 ––… auf Prozessebene:
Die klassische Datenanbindung einer Data-Warehouse- Ein Prozess startet mehrere Threads, die parallel ar-
Architektur mittels eines ETL-Tools erfährt zurzeit beiten und somit zu einer Beschleunigung der Ver-
massive Veränderungen, die sich aus den folgenden arbeitung führen. Das Sortieren von Daten kann z. B.
Punkten ergeben: durch mehrere Unterprozesse aufgeteilt werden.
• Die unternehmensinternen Daten sollen immer ––… auf Verbindungsebene:
 schneller im Data-Warehouse-System zur Verfü- Hierbei werden mehrere Verbindungen zur Da-
 gung stehen. Tendenzen der Ladezyklen gehen von tenbank aufgebaut und die Daten können paral-
 monatlicher über wöchentliche bis hin zu tägli- lel verarbeitet werden. Je besser die Datenbank
 cher Beladung. Immer häufiger kommen auch An- und die Verarbeitungssoftware aufeinander abge-
 wendungsfälle zum Einsatz, in denen die Zyklen stimmt sind, desto besser und schneller werden
 Tendenzen zu stündlicher bis hin zu Real-Time-Be- die Daten verarbeitet.
 ladung aufweisen. ––… Data-Management-Ebene:
• Die Anzahl der verfügbaren Formate wird immer Hier wird versucht, möglichst eine Anzahl von
 höher. Neben den klassischen CSV-Dateien steigt Teilprozessen parallel ablaufen zu lassen, um so-
 der Bedarf an Datenanbindungsmöglichkeiten wei- mit die Verarbeitung zu beschleunigen.
 terer Dateiformate.
• Datenanbindungen laufen nicht immer nach ei- Nicht immer führt eine Parallelisierung zu dem ge-
 nem festen Verfahren ab. Es müssen Interaktionen wünschten Beschleunigungseffekt.
 zugelassen werden, bei denen Benutzer der Wei-
 terverarbeitung zustimmen müssen: sogenannte • Change-Data-Capture (CDC)
 Workflows. Um zu vermeiden, dass immer alle Daten aus dem
• Anwender wollen heute in vielen Bereichen die Quellsystem geladen werden müssen, kann man
 Möglichkeit besitzen, weitere Daten in eine Data- Verfahren der Delta-Erkennung nutzen. Diese Ver-
 Warehouse-Architektur zu übernehmen. fahren kennzeichnen neue, gelöschte oder verän-
 derte Datensätze. Nur diese Änderungen werden
Den klassischen Ansatz für die Beladungsprozesse den weiteren Prozessschritten für die Verarbeitung
stellen wie beschrieben die ETL-Tools dar. Diese sind zugeführt. So kann die Datenmenge enorm verrin-
darauf spezialisiert, Daten fester Struktur zu entla- gert werden, besonders dann, wenn man die Daten
den, zu transformieren und in eine Data-Warehouse- aus den operativen Systemen sehr zeitnah im DWH
oder Data-Mart-Ablage zu laden. haben möchte.

  16 17 18 
ZUM
 INHALT

 3 Betrachtung auf Architekturebene

• Bulk-Load Wurden in der Vergangenheit hauptsächlich Daten in
 Besonders das Schreiben von Daten in eine Daten- den Formaten Text, Zahlen oder Datum verwendet, so
 bank ist sehr zeitaufwändig. Viele Datenbanken bie- haben sich in den letzten Jahren neue Möglichkeiten
 ten deshalb besondere Bulk-Load-Verfahren an, um und veränderte Prozesse etabliert, welche es zu be-
 den Schreibvorgang zu beschleunigen. Wenn ein rücksichtigen gilt. Zum einen hat sich die Datennut-
 ETL-Tool das Bulk-Load-Verfahren der verwendeten zung stark auf Audio/Video/Bilder erweitert, und zum
 Datenbank unterstützt, dann werden die Schreib- anderen werden Daten unstrukturiert abgelegt, um
 vorgänge sehr beschleunigt. erst in einem späteren Schritt die Strukturen in den
 Daten zu definieren.
• InDatabase-Verarbeitung (ELT)
 Bei der Nutzung von Daten aus einer relationalen Auf Basis der Dateien hat sich erst ein Wechsel
 Datenbank ist es sinnvoll, einen Teil der Verarbei- von CSV in Richtung temporär strukturierte XML/
 tung in der Datenbank vornehmen zu lassen. Statt JSON-Dateien und seit kurzem auch eine Nutzung
 erst alle Daten aus der Datenbank zu lesen und zu von HADOOP-Daten direkt auf Dateibasis, wie z. B.
 verarbeiten, ist es häufig viel schneller, wenn man AVRO11 oder PARQUET12, gezeigt.
 Verarbeitungsschritte in dem liefernden System
 oder auch im Zielsystem durchführen lässt. Es wird CSV-Dateien hatten und haben den Vorteil, dass
 dann von einer ELT-Verarbeitung gesprochen, weil sie sehr einfach zu erstellen sind und von fast al-
 die Transformation in der Datenbank und nicht im len Programmen genutzt werden können. Nachteil
 eigentlichen ETL-Tool stattfindet. Technisch wer- ist, dass die Formate innerhalb der Datei nicht ge-
 den entsprechende SQL-Programme erstellt und sichert sind und daher beim Import geprüft wer-
 zur Verarbeitung an die Datenbank gesendet. den müssen. Die Nutzung von CSV-Dateien birgt
 ein hohes Potential an Datenqualitätsproblemen
• InMemory-Verarbeitung und bedarf entsprechender Vorkehrungen bei der
 Besonders der Transformations-Schritt beim Trans- Datenanbindung.
 port der Daten aus dem Quell- in das Zielsystem
 ist sehr aufwändig und zeitintensiv. Hier können Bei XML/JSON-Dateien sind die Felder den Spalten
 zum einen optimierte Datenspeicherformate hel- explizit zugeordnet, weshalb hier einige Fehlerquel-
 fen, indem die ETL-Tools die Daten in einem ei- len gegenüber einer CSV-Datei entfallen.
 genen performanten Format statt im Textformat
 zwischenspeichern, und zum anderen, indem die zu XML/JSON haben daher den Vorteil, dass deren inter-
 verarbeitenden Daten in Hauptspeicher gehalten ne Struktur besser definiert und die Daten passend zu
 werden, was mathematische Verarbeitungen über den Spalten abgelegt werden können. Doch auch hier
 Zeilengrenzen hinweg sehr beschleunigt oder erst kann es vorkommen, dass die Inhalte nicht zum de-
 ermöglicht (besonders bei BigData). finierten Format passen. Da die Datenstruktur inner-
 halb der Datei mitgeliefert wird, kann es vorkommen,
Externe Daten wurden und werden häufig über ent- dass sich die Struktur zwischen den Datenlieferun-
sprechende Dateien importiert. Im Laufe der Zeit gen ändert (was auch bei CSV-Dateien sein kann),
haben sich sowohl die Dateiformate als auch die Da- was bei nicht angepassten ETL-Prozessen meist zu
teninhalte stark geändert. unerwünschten Folgen führt. Hier ist es wichtig, falls

11
 Siehe hierzu auch https://de.wikipedia.org/wiki/Apache_Avro.
12
 Siehe hierzu auch https://en.wikipedia.org/wiki/Apache_Parquet.

  17 18 19 
ZUM
 INHALT

 3 Betrachtung auf Architekturebene

eine derartige Änderung möglich ist, dass in einem Betracht zu ziehen, dass Formate oder Strukturen ge-
Vorverarbeitungsschritt die Struktur und die Inhalte ändert wurden.
zu prüfen sind, bevor die Daten der eigentlichen Ver-
arbeitung zugeführt werden. Dies führt zu der architektonischen Änderung, dass
 Dateien immer in einer Vorbearbeitungseinheit ent-
Ganz allgemein lässt sich daher die Empfehlung aus- sprechend geprüft und vor der weiteren Verarbeitung
sprechen, Dateien nicht einfach als statisch im For- gesichert und standardisiert werden. Der Prozess
mat anzunehmen, sondern immer die Möglichkeit in kann sich daher folgendermaßen gestalten:

 ETL Prozess

 ETL0
 Konvertierung
 Prüfen &

 Data Warehouse

 Quellsysteme

Abbildung 10: ETL0-Schicht zur Vorverarbeitung von gelieferten Dateien.

  18 19 20 
ZUM
 INHALT

 3 Betrachtung auf Architekturebene

Diese Dateivorverarbeitung kann durch ein separates Schon an dieser Stelle wird deutlich, dass die bisheri-
Tool erfolgen, durch mehrere Tools oder durch das ge ETL-Struktur weiter aufgebrochen wird in eine hy-
eingesetzte ETL-Tool, sofern es alle benötigten Da- bride Architektur mit mehreren Funktionsbausteinen.
teiformate unterstützt.
 Neben dem klassischen ETL-Verfahren haben sich
Der Vorteil einer separaten Lösung ist zum einen, dass in den vergangenen Jahren weitere Ansätze zur Da-
die Verarbeitung vom eigentlichen Beladungsprozess tenanbindung etabliert. Diese sollten kurz darge-
entkoppelt wird,und zum anderen hier frühzeitig auf stellt und abgegrenzt werden.
die Strukturprobleme eingegangen werden kann. Die
Prüfung und Standardisierung kann unmittelbar bei Datenvirtualisierung
Lieferung erfolgen und ist somit unabhängig vom Nicht immer ist es sinnvoll, Daten materialisiert zu-
allgemeinen Start des DWH-Ladeprozesses. sammenzufassen und somit zu duplizieren. Ein Virtu-
 alisierungssystem simuliert für Anwendungen einen
Weiterhin kann die ETL0-Schicht dann sukzessive aus- SPOT, obwohl die Daten erst zur Abfragezeit gesam-
gebaut werden, um auch weitere Dateien bestmöglich melt werden. Der große Vorteil ist hier die hohe Fle-
zu integrieren, wie z. B. die angesprochenen AVRO- und xibilität der Datenzusammenfassung, da diese meist
PARQUET-Dateien. Der Einsatz von Standardstruktu- über einen SQL-View13 erfolgt, welcher in kürzester
ren im Output macht zum einen die Entwicklung der Zeit angepasst oder neu erstellt werden kann.
Datenanbindung einfacher, weil klar geregelt ist, wo
was zu erfolgen hat, und zum anderen werden Feh- Virtualisierungssysteme eignen sich hervorragend
ler so frühzeitig erkannt und nicht weiterverarbeitet. bei der Migration von Systemen, da durch die virtu-
Auch kann die Funktion dann unternehmensweit ge- elle Zusammenfassung von Daten sowohl Anwender
nutzt und muss nicht bei jedem eingesetzten Modul als auch Applikationen keine Aufgaben der Daten-
erneut umgesetzt werden. Im Bereich von Self-Service integration anwenden müssen. Eine Migration von
muss beispielsweise nun nur noch geklärt werden, Datenhaltungen kann mit Hilfe einer Virtualisierung
wie die Dateien zur Konvertierungseinheit gelangen. von Daten unterstützt werden.
Die anschließende Verarbeitung ins DWH oder in den
Data Mart erfolgt dann automatisch unter Nutzung Datenvirtualisierungen haben sich auch im Bereich
der bestehenden Struktur. der DWH-Entwicklung als nützlich erwiesen, da
 Datenmodelle in den unterschiedlichen Schichten
Die beschriebene ETL0-Schicht kann auch für die getestet werden können, ohne erst materialisiert
Konvertierung diverser anderer Dateien wie dBase, werden zu müssen. Dies spart Zeit in der Entwick-
EXCEL, Access, etc. Anwendung finden. lung und bringt eine höhere Flexibilisierung. Erst
 wenn die Datenmodelle soweit fixiert sind, dass sie
Der zeitliche Nachteil der zusätzlichen Prüfung ist im in die Produktion gehen sollen, kann entschieden
Verhältnis zu den zu vermeidenden Fehlerbeladun- werden, ob man weiterhin mit virtuellen Anbindun-
gen zu vernachlässigen. Fehler in der Beladung sind gen arbeitet, weil es performant genug ist, oder ob
kostenintensiv und nicht kalkulierbar, der Aufwand für Datenmodelle ganz oder teilweise materialisiert
die Datei-Prüfung und -Konvertierung überschaubar. werden sollen.14

13
 Siehe zu SQL-View auch https://en.wikipedia.org/wiki/View_(SQL) (entnommen am 25.09.2019).
14
  Christian Hädrich, „Virtual Enterprise Data Warehouse oder: Warum Sie wirklich eine PSA (Persistent Staging Area) für Ihr DWH
 wollen“, Vortrag auf dem 33. TDWI Roundtable Hamburg, 15.08.2019.

  19 20 21 
ZUM
 INHALT

 3 Betrachtung auf Architekturebene

Abbildung 11: Virtualisierung von Datenanbindungen.

Ein weiterer Punkt der Virtualisierung ist die Umset- einzeln. Dies vereinfacht die entsprechende Pflege
zung von Datenschutzmaßnahmen15, die hier an zen- von Datenschutzrichtlinien im Unternehmen.
traler Stelle erfolgen kann anstatt in jeder Datenbank

15
  Weitere Informationen zu der neuen EU DSGVO: Nils Bruckhuisen, Lars von Lipinski (2018),
 „Die neue EU-Datenschutz-Grundverordnung“, TDWI eBook.

  20 21 22 
ZUM
 INHALT

 3 Betrachtung auf Architekturebene

iPaaS (Integrated Platform as a Service) modelliert werden können. Ein weiterer Vorteil von
Bei iPaaS handelt es sich um eine cloudbasierte iPaaS ist die meist hohe Anzahl an möglichen Da-
Lösung für die Verbindung von Anwendungen und tenanbindungen, so dass die Nutzung von verschie-
Daten aus Cloud- oder On-Premises-Umgebungen. denen Dateien und Programmen ermöglicht wird.
Durch eine Vielzahl vorgefertigter Connectoren ist
der Zugriff auf Applikationen, Datenbanken und Da- Da es sich bei iPaaS um eine cloudbasierte Lösung
teien einfach zu realisieren. Innerhalb der Prozesse handelt, sollte aus datenschutzrechtlicher Sicht be-
werden neben den Zugriffen auf Daten und deren achtet werden, wie die Daten fließen und ob es ei-
Ablage bei Bedarf auch Funktionen zur Bearbeitung, ne Möglichkeit gibt, bei z. B. sehr sensiblen Daten
Bereinigung und Zusammenführung genutzt. den Fluss auf die eigene On-Premises-Umgebung
 zu beschränken. Dies ist dann möglich, wenn die
Eine iPaaS-Architektur ermöglicht den Transport von Prozessdefinition zwar in der Cloud liegt, die Pro-
Daten über einen definierten Prozessfluss sowohl zessverarbeitung jedoch durch eine eigens in der
manuell, zeit- oder ereignisgesteuert als auch via ei- On-Premises-Umgebung installierte Engine erfolgt.
ner API-Steuerung. Somit kann flexibel entschieden
werden, wann benötigte Daten von einem System Zunehmend werden bei Datenintegrationen komple-
in ein anderes System übertragen werden. Da hier xere Workflow-Funktionen gefordert, wie dies z. B.
meist kurze Wege mit einfachen Transformationen bei IFRS17-Projekten oder Schadensabwicklungen
zur Anwendung kommen, sind die Latenzzeiten sehr der Fall ist. Um nun diese Anforderung umsetzen zu
gering. Ein iPaaS kann weiterhin für die Steuerung können, haben iPaaS-Anbieter entsprechende Work-
von Daten für Anwendungen genutzt werden, da häu- flow-Komponenten integriert, um die Datenprozesse
fig komplette Datenflüsse inkl. externer Steuerung mit Workflow-Funktionen zu kombinieren.
 On-Premise

Abbildung 12: iPaaS als cloudbasierter Integrationsservice.

  21 22 23 
ZUM
 INHALT

 3 Betrachtung auf Architekturebene

Daten-
strom
 ESP
 Engine

Abbildung 13: Eine ESP-Engine filtert bestimmte Daten aus einem Datenstrom (Stream) heraus.

Data Preparation Datenbeständen, die optimal die geplante Analyse
Mit der Zunahme von Analytics und dem damit ein- unterstützen. Anwender von Data-Preparation-Tools
hergehenden Anspruch, Analytics allumfassend zu sind vor allem Personen aus den Fachbereichen, die
betrachten, nimmt auch der Bedarf zu, die Datenbasis mit einfachen Methoden Datenbestände aufbau-
für die Analytics flexibel aufbauen zu können. Im Ge- en wollen. Diese Tools werden interaktiv verwendet
gensatz zu einem IT-Fachanwender, der sich mit dem und manuell oder automatisch gestartet. Für einen
Verbindungsaufbau und der Nutzung von Datenban- erfolgreichen Einsatz von Data-Preparation-Tools im
ken und APIs gut auskennt, hat der Data Scientist hier Unternehmen sollten integrierte Funktionen der Da-
meist keine Kenntnisse, so dass er Tools benötigt, die tenqualitätssicherung enthalten sein. Ein Vorhanden-
das Zusammenführen und Aufbereiten von Daten für sein einer Profiling-Funktion16 kann helfen, zu prüfen,
die Analyse möglichst einfach gestaltet. Für diesen ob die Datenqualität der zu nutzenden Daten den Er-
Anspruch wurden Data-Preparation-Tools entwickelt. wartungen entspricht.
Die Verbindung zu den meisten Datenhaltungen im
Unternehmen ist bei dieser Art von Tools schon defi- Event Stream Processing (ESP)
niert und steht somit für die Nutzung zur Verfügung. Nicht immer ist es sinnvoll, alle Daten für die spätere
Einzelne weitere Datenpakete in Form von Dateien Verwendung zu speichern. Es gibt Anwendungsfälle,
können hinzugefügt werden. Anschließend können bei denen nur bestimmte Daten aus einem Datenfluss
alle Daten so aufbereitet und bereinigt werden, dass (Stream) gespeichert werden sollen. Hierfür können
sie für die Analyse genutzt werden können. Ziel von Tools genutzt werden, die vor allem darauf speziali-
Data-Preparation-Tools ist somit nicht in erster Linie siert sind, aus einer Vielzahl von Datensätzen nur je-
die zentrale Datenablage, wie dies bei ETL- oder iPaaS- ne herauszufiltern und weiterzuleiten, die speziellen
Tools der Fall ist, sondern der flexible Aufbau von Anforderungen genügen. Verglichen mit ETL erfolgt

16
 Mehr zum Thema Profiling im Kap. 2.4 Datenqualität.

  22 23 24 
Sie können auch lesen