DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN - Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist

Die Seite wird erstellt Detlef Hamann
 
WEITER LESEN
DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN - Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist
DAS DATA WAREHOUSE:
DER MOTOR IHRER ANALYSEN
Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist   E-BOOK
DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN - Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist
INHALTSVERZEICHNIS
3    Warum Unternehmen bei der Analytik-Revolution im Rückstand sind
5    Der Weg zu transformativen Analysen wird durch Hindernisse erschwert
7    Die geschäftlichen Auswirkungen von Hindernissen bei Analysen
8    Warum das Data Warehouse immer noch relevant ist
9    Die Cloud ist der natürliche Ort für das moderne Data Warehouse
10   Speziell für die Cloud entwickeltes Data Warehousing as a Service
13   Die Geschäftsvorteile der Implementierung eines Data Warehouses für die Cloud
14   Case Study: Von der Implementierung bis zu „schwarze Zahlen schreiben“ in weniger als einem Jahr
15   Über Snowflake
DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN - Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist
WARUM UNTERNEHMEN BEI
DER ANALYTIK-REVOLUTION
IM RÜCKSTAND SIND
Laut McKinseygeben 86 Prozent derFührungskräfte an, dass ihre Unternehmen         geschieht das Gleiche mit einer Reihe von agilen ETL- (Extrahieren,
beim Erreichen des Hauptziels ihrer Daten- und Analyseprogramme bisher            Transformieren und Laden) und ELT-Anbietern (Extrahieren, Laden und
nur bedingt erfolgreich waren. Noch beunruhigender ist, dass mehr als ein         Transformieren), die die internen und externen Daten eines Unternehmens
Viertel sagen, dass sie ineffektiv waren.1                                        in ein zentrales Repository für Lösungen zur Datenanalyse abfragen, die
Dass die meisten Dateninitiativen dem tatsächlichen Bedarf heutiger               ihre Arbeit erledigen.
Unternehmen nicht oder gar nicht gerecht werden, zeigen zwei                      Was bleibt, ist die Ursache des Problems. Dieses zentrale Repository besteht
wesentliche Trends. Erstens konzentrieren sich Unternehmen mehr denn              typischerweise aus einem Data Warehouse, das auf alter Technologie basiert.
je auf Datenanalyse. Zweitens sind die Fehler wahrscheinlich meistens in          Oder ein Unternehmen hat auf eine NoSQL-Lösung wie Hadoop umgestellt.
der Datenanalyseplattform des Unternehmens zu finden.                             In letzter Zeit haben Unternehmen die Vorteile und auch viele Nachteile
Nach wie vor entwickeln sich Datenanalyseprodukte schneller als die               beider Lösungen erkannt und mit einer hybriden Alternative reagiert. In dem
Technologie, auf der sie basieren. Anbieter liefern weiterhin fortschrittliche,   halbherzigen Versuch, ihre Datenanalyse zu verbessern, nutzen sie beide
aber intuitive Lösungen, die Fachleute aller Ebenen, Abteilungen und              Systeme. Unternehmen sind dann gezwungen, Data-Marts hinzuzufügen, was
Geschäftsfunktionen ansprechen. Das ist das Frontend. Im Backend                  das Modell noch komplexer macht. Data-Marts sind aber in dem Fall für Analysen
                                                                                  notwendig und stellen eine große Herausforderung an die Datenverwaltung dar.
DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN - Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist
EINE TRADITIONELLE KONFIGURATION FÜR DIE DATENANALYSE

                                           DATA LAKE                    HADOOP + NOSQL

                                                                                                                         DATA-MARTS

                ETL

                                      BEREITSTELLUNG + ODS              DATA WAREHOUSE

In der Zwischenzeit erfassen Unternehmen mehr Daten als je zuvor.                Und obwohl es durch Hadoop und andere NoSQL-Systeme möglich ist,
Und das Volumen, die Vielfältigkeit und Geschwindigkeit der Daten                verschiedene Datentypen aufzunehmen, ist es so gut wie unmöglich, die
bedeuten, dass die meisten dieser Daten in der Cloud entstehen und               beste Analyse der Daten zu erhalten. Diese Systeme bieten Unternehmen
gespeichert werden. Es sind Petabyte an Daten verfügbar. Diese Daten             keine richtige Grundlage, ihren wachsenden Datenhunger in echte
versauern jedoch in Speicherlösungen außerhalb traditioneller Data               Geschäftsinformationen umzusetzen.
Warehouses, weil die alten Systeme neue, halbstrukturierte Datentypen            In diesem E-Book untersuchen wir die Herausforderungen, mit denen
nicht effizient bearbeiten können. Oder es ist einfach zu teuer, mehr Daten      Unternehmen bei der Umwandlung von Daten in transformative
in traditionellen Systemen zu speichern, die nicht für die Cloud entwickelt      Geschäftseinsichten konfrontiert sind. Sie lernen auch die Technologien
wurden. Die alte Architektur und Technologie dieser Systeme, die gebaut          kennen, die Unternehmen jetzt nutzen können, um bei der Analytik-
wurden, als viel weniger Daten erfasst wurden und weitaus weniger User           Revolution Schritt zu halten. Mit einem modernen Data Warehouse für die
Datenzugriff benötigten, sind weiterhin ein Problem.                             Cloud können Sie und Ihr Unternehmen dabei ganz vorne stehen.
DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN - Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist
ERFOLGSLEITFÄDEN
DER WEG ZU TRANSFORMATIVEN
ANALYSEN WIRD DURCH
HINDERNISSE ERSCHWERT
Mittlerweile sollte Ihr Unternehmen transformative   ZUGRIFF AUF DATEN ERHALTEN                                  In diesem Fall entwickeln Ihre Datenuser möglicherweise
Aktionen mit Analysen durchführen. Aber durch alte                                                               Zwischenlösungen, die die Situation oft noch verschlimmern.
                                                     Analysten und Geschäftsanwender warten oft Stunden,         Hier ein paar häufige Optionen, die sich beim Versuch von
Data Warehouses und NoSQL-Systeme entstandene        wenn nicht sogar Tage, bis Daten geladen sind und           Maßnahmen gegen Latenz herausbilden, und deren Folgen:
architektonische oder technologische Hindernisse     Abfragen ausgeführt werden. Um die Belastung des
                                                                                                                 •   Datensilos
verhindern weiterhin die Datenanalysen, die          Betriebs durch diese Workloads zu verringern, müssen Sie
                                                     oft bis spät in die Nacht warten, um Daten in Ihre Data      Problemumgehung: Die IT-Abteilung belässt Daten an
                                                                                                                 	
erforderlich sind, um die Erfahrung der Datenuser                                                                 ihrem ursprünglichen Speicherort außerhalb des Data
                                                     Warehouses zu laden. Für heutige globale Unternehmen,
ständig zu verbessern, Vorgänge zu optimieren, die                                                                Warehouses, um nicht auf langsame ETL-Prozesse
                                                     die rund um die Uhr aktiv sind, sind die Daten in Ihrem
Usererfahrung Ihrer Kunden weiterzuentwickeln                                                                     warten zu müssen.
                                                     Warehouse jedoch nie aktuell. Und bei neueren Formen
und mit der Ihr Unternehmen Marktführer werden       semistrukturierter Daten, wie z. B. JSON, ist es einfach     Folge: User sind eingeschränkt durch begrenzte
                                                                                                                 	
und bleiben kann.                                                                                                 Abfrageergebnisse und die fehlende Möglichkeit,
                                                     zu kompliziert, sie in ein altes Data Warehouse zu laden.
                                                                                                                  Analysen auf allen Daten eines Unternehmens von
                                                     Also bleiben die Daten in isoliert arbeitenden Einheiten
Diese Verhinderungen lassen sich in drei                                                                          einem Repository aus durchzuführen. Oder schlimmer
                                                     („Silos“) außerhalb des Data Warehouses. Die Ergebnisse      noch, sie versuchen, Daten manuell zu integrieren,
Hauptkategorien einteilen:                           von Abfragen sind im Grunde ungenau, nicht mehr gültig       was zu inkonsistenten Ansichten führen kann. Wenn
                                                     oder ungeeignet, da die Informationen im Warehouse           sie die Daten nicht gut kennen, können dabei falsche
   ZUGRIFF AUF DATEN ERHALTEN                        begrenzt und veraltet sind.                                  Ergebnisse entstehen, wenn die Daten in diesen Silos
                                                                                                                  nicht richtig verknüpft werden.
 	ANALYSEN DURCHWEG SCHNELL                         ANALYSEN DURCHWEG SCHNELL VERARBEITEN                       •   Verwendung von Spreadmarts
   VERARBEITEN                                       Die Datasets Ihres Data Warehouses werden in Ihrem           Problemumgehung: User extrahieren große
                                                                                                                 	
                                                     Unternehmen auf verschiedenste Weise verwendet.              Datenmengen, vielleicht über Nacht, und speichern
   PERSONALBESCHRÄNKUNGEN                            Aber durch die Ausführung gleichzeitiger Abfragen,           diese Daten in Excel-Tabellen, um ihre Analysen
                                                     Datenladungen und Entwicklungsjobs werden die meisten        offline auszuführen.
                                                     traditionellen Data Warehouses auf ein Schneckentempo        Folge: Wenn sich diese Praxis verbreitet, extrahieren und
                                                                                                                 	
                                                     oder noch mehr verlangsamt. Es kann sogar vorkommen,         speichern verschiedene User verschiedene Versionen
                                                     dass Datenbankadministratoren Abfragen löschen, die          derselben Daten, um dann verschiedene analytische
                                                     sie für nicht so wichtig halten, damit wichtigere Jobs       Abfragen zu entwickeln und zu unterschiedlichen
                                                                                                                  Schlussfolgerungen zu gelangen. In diesem Szenario
                                                     ausgeführt werden können.
                                                                                                                  ist es auch üblich, dass User andere, nicht verwaltete
                                                                                                                  Datenquellen in die extrahierten Daten integrieren und
                                                                                                                  die Ergebnisse so noch weiter verzerren. Letztendlich ist
                                                                                                                  keines der Ergebnisse prüfbar.

                                                                                                                                                                                 5
DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN - Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist
ERFOLGSLEITFÄDEN
Jede Minute, die Ihr Team für Business Intelligence           Die fortgesetzte Nutzung der alten Data-Warehouse-         Unternehmen mit NoSQL-Daten-Repositorys benötigen
und Analysen auf Daten wartet, ist eine Minute, in der        Technologie hat zu einem zusätzlichen und neuen            fortgeschrittene Datenwissenschaftler, die MapReduce-
keine Informationen aus diesen Daten ziehen kann.             Personalproblem geführt. Der Anstieg semistrukturierter    Abfragen in komplexeren Sprachen wie z. B. Java schreiben
Solange Unternehmen auf Datensysteme angewiesen               Daten aus Quellen wie mobilen Geräten, Social-Media-       können. IT-Fachleute mit diesen MapReduce-Kenntnissen
sind, bei denen der Zugriff auf Daten ein langsamer und       Plattformen und Maschinendaten hat die Grenzen             sind deutlich seltener verfügbar als Fachleute mit SQL-
schwerfälliger Prozess ist, werden User viel weniger          des traditionellen Data Warehouses aufgezeigt. Viele       Erfahrung. Dies hat dazu geführt, dass Mitarbeiter in
analytische Arbeit leisten können. Sie werden weiterhin       Unternehmen nutzen daher NoSQL-Systeme wie Hadoop,         diesen Bereichen schwer zu rekrutieren sind und es viel
Lösungen zur Problemumgehung finden, die zu noch              um einen „Data Lake“ zu erstellen. Die Abfrage dieser      Geld kostet, sie zu halten.
mehr Datensilos führen. Für Ihr Unternehmen wird nur          Data Lakes ist jedoch wesentlich komplizierter als die     Eine weitere Herausforderung besteht darin, dass sowohl
ein unvollständiges oder ungenaues Bild seiner Daten          Ausführung einer SQL-Abfrage in einem relationalen Data    traditionelle Data-Warehouse-Lösungen als auch NoSQL-
verfügbar sein, und Analysten werden nicht die Zeit haben,    Warehouse und erfordert unterschiedliche Fähigkeiten.      Systeme vor der Cloud entstanden sind. Lokale oder
neue Einsichten oder Ideen in den Daten zu finden.                                                                       „cloudartige“ Versionen dieser Lösungen werden niemals
                                                              Bei Hadoop und anderen NoSQL-Lösungen ist das
                                                              Personalproblem also noch akuter. Diese Systeme sind       die Kosten, Komplexität und Kopfschmerzen reduzieren,
PERSONALBESCHRÄNKUNGEN                                        erst in den letzten 10 Jahren entstanden. Und sie haben    die damit verbunden sind, alle Ihre Daten effizient
Bei allem Gerede über die „Demokratisierung                   nicht auf magische Weise die Ergebnisse gebracht, die      einzulesen und Informationen zu extrahieren. Der Zugriff
der Daten“ benötigen Unternehmen immer noch                   der anfängliche Hype vorhergesagt hat. Hochqualifizierte   auf diese Systeme wird sich jedoch weiterhin auf die
technisches Personal, um ihre alten, lokal oder in der        und mit diesen Lösungen vertraute Fachleute sind ein       wenigen Mitglieder des technischen Teams beschränken.
Cloud vorhandenen Data Warehouses zu nutzen.                  wesentlicher Bestandteil eines Hadoop-Projekts, damit      Diese Teammitglieder werden vielen anderen Personen
Fachleute im Bereich IT und Datenanalyse mit                  dieses einigermaßen erfolgreich wird. IT-Fachleute mit     in Ihrem Unternehmen, die mit Daten arbeiten
allen Qualifikationsniveaus bleiben die begehrteste           diesen Fähigkeiten sind jedoch aufgrund der Neuheit        und sich bei der Ausführung ihrer Arbeit auf
Personalressource in einem Unternehmen. Der globale           dieser Systeme und ihrer Defizite schwer zu finden.        Daten verlassen, Antworten liefern,
IT-Personaldienstleister Modis schätzt ein Wachstum der                                                                  aber keinen Zugriff.
IT-Jobs bis 2024 um 12 Prozent – fast doppelt so viel wie
das prognostizierte Wachstum aller anderen Branchen.2
Bei einem traditionellen Data Warehouse müssen
Mitarbeiter eines Unternehmens Folgendes erledigen:
•    aten laden und in die richtige Struktur für eine SQL-
    D
    Datenbank transformieren.
•	
  Die Datenbank und die Hardware verwalten, die für
  die Pflege der Datenbank erforderlich sind.
•    er „Self-Service“ Geschäftsanwendern mit ihren
    P
    Daten helfen.
•    eschäftsanwendern bei der Entwicklung und
    G
    Ausführung von Visualisierungen für komplexere
    Analysen helfen.
•	
  Komplexe SQL-Abfragen schreiben und optimieren,
  um eine aussagekräftige Analyse der Daten
  durchzuführen.

                                                                                                                                                                                       6
DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN - Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist
ERFOLGSLEITFÄDEN
DIE GESCHÄFTLICHEN
AUSWIRKUNGEN VON
HINDERNISSEN BEI ANALYSEN
Es ist kein Geheimnis, dass alte Data-Warehouse- und        Ressourcenknappheit durch ineffiziente Datensysteme           ES WIRD MEHR ZEIT FÜR DIE INFRASTRUKTUR
NoSQL-Lösungen technologische Einschränkungen               verhindert den Prozess der Produkt- und                       ALS FÜR DATEN AUFGEWANDT
                                                            Geschäftspraktiken-Innovation anhand von Analysen.
mit sich bringen. Diese Einschränkungen zeigen              Es besteht einfach keine Möglichkeit, Experimente mit
                                                                                                                          Viele Unternehmen investieren viel mehr Zeit und Mühe
sich in dem kontinuierlichen Aufwand, der                                                                                 in die Aufrechterhaltung der Infrastruktur ihrer Daten
                                                            Ihren Daten durchzuführen und diese Experimente zur
                                                                                                                          und Datensysteme, als mit der tatsächlichen Analyse der
zum Optimieren, Abstimmen, Reparieren und                   Generierung neuer Daten zu nutzen. Stattdessen kommen
                                                                                                                          Daten.
                                                            Sie über den ersten Schritt nicht hinaus; Ideen häufen sich
Aufrechterhalten eines mittelmäßigen Systems
                                                            an und Sie wünschen, Sie könnten etwas dagegen tun.           Diese Infrastrukturanforderungen umfassen die Wartung
erforderlich ist. Und all diese Bemühungen zur                                                                            von Servern, die Überwachung der Systemleistung und
Aufrechterhaltung eines Systems, das sein Potenzial         WENN DATENZUGRIFF NICHT                                       die Behebung von auftretenden Fehlern. Oftmals geht
längst erreicht hat, bringen wahrscheinlich nur             AUF ALLE USER AUSGEWEITET WERDEN KANN                         es darum, schwierige Entscheidungen darüber zu treffen,
                                                                                                                          welche Daten geladen werden müssen und welche
schrittweise Verbesserungen. Aber was ist mit den           Die Belastungen durch den exponentiellen Datenanstieg         Abfragen im Hinblick auf die Systemleistung gestoppt
Behinderungen fürs Geschäft, die diese Technologie          und den Bedarf einer wachsenden Userzahl sind für             oder nicht gestoppt werden können. Je nach Größe und
                                                            viele Unternehmen, die sich auf ein Data Warehouse            Komplexität ihrer Plattform zur Datenanalyse beschäftigen
mit sich bringt?
                                                            als Grundlage ihrer Analysen verlassen, nach wie vor          einige Unternehmen mehrere Vollzeitmitarbeiter, deren
                                                            entscheidend.                                                 einzige Aufgabe in der Überwachung und Wartung von
RESSOURCENKNAPPHEIT BEHINDERT ANALYSEN                      Aufgrund der Komplexität und der rasanten                     Rechenzentrumsinfrastrukturen besteht.
Die Probleme, die durch ineffektive Datensysteme            Geschwindigkeit der Skalierung der meisten Data-              Abhängig von den internen Protokollen und der aktuellen
verursacht werden, lassen sich auf ein Wort reduzieren:     Warehouse-Lösungen brauchen Projektbeteiligte aus den         Data-Warehouse-Architektur können auch die Extraktion,
                                                            Bereichen Vertrieb, Finanzen und Führungskräfte, für die      Transformation und das Laden der Daten in das Data
Ressourcenknappheit.
                                                            die Möglichkeiten einer tief gehenden Analyse von Vorteil     Warehouse enorm zeitaufwendig sein. In den meisten
Durch Ressourcenprobleme können Datenuntersuchung,          sind, Monate oder sogar Jahre, bis sie einen Nutzen aus       Unternehmen kann ETL mehrere Schritte umfassen,
Business Intelligence, Reporting und Vorhersageanalysen     all den verfügbaren Daten ziehen können.                      genauer gesagt die Bereinigung und Aufbereitung
nicht detailliert durchgeführt werden. Ohne die Zeit,       Diese Projektbeteiligten werden sich weiterhin auf IT-        der Daten, damit sie den Anforderungen des Systems
das Geld und die menschliche Intelligenz, die Sie für die   und qualifizierte Datenanalysten verlassen. Die wenigen       entsprechen.
Generierung von Analyseergebnissen aufwenden müssen,        mit Zugriff auf das Data Warehouse werden einer               Insgesamt summiert sich die in Infrastruktur,
werden Sie aus Ihren Daten höchstwahrscheinlich keine       kleinen Anzahl von Projektbeteiligten, die sie effektiv       Datenbankverwaltung und ETL (dessen Komplexität oft
neuen Ideen, Produkte oder Prozesse entwickeln. Vielmehr    unterstützen können, Informationen liefern. Das bedeutet      durch die Infrastruktur bedingt ist) investierte Zeit. Das
können Sie nur noch einfache Berichte ausführen,            natürlich, dass diese wenigen Analysten den Großteil          bedeutet, dass Datenteams den Datenverkehr überwachen
                                                            ihres Tages damit verbringen, einfache Abfragen zur           müssen und sich nicht wichtigen Analyseprojekten und
während Ihre Mitbewerber ihr Unternehmen mit
                                                            Extraktion und Visualisierung von Daten durchzuführen,        -strategien widmen können, die ihr Unternehmen und ihre
komplexen Analyseprozessen wie maschinellem Lernen,         damit diese Daten präsentiert werden können, anstatt          Karriere voranbringen würden.
Vorhersageanalysen und Data Mining transformieren.          komplexere Datenanalysen vorzunehmen.

                                                                                                                                                                                          7
DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN - Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist
ERFOLGSLEITFÄDEN
WARUM DAS DATA
WAREHOUSE IMMER
NOCH RELEVANT IST
Ist das Data Warehouse angesichts der        Wie bei der Entwicklung des Data Warehouses Anfang         Das moderne Data Warehouse ist das Ergebnis von
Herausforderungen, die es mit sich bringt,   der 90er Jahre benötigen Unternehmen einen zentralen       drei Jahrzehnten und zwei sehr unterschiedlichen
immer noch eine relevante Architektur für    Ort, an dem sie alle ihre Daten speichen und abfragen      Ansätzen zur Bereitstellung einer effektiven
                                             können. Und der Anstieg von NoSQL-Systemen wie             Datenanalyse. Es repräsentiert die Leistungsfähigkeit von
die Analytik von heute?
                                             Hadoop hat es nicht geschafft, das Data Warehouse als      traditionellem Data Warehousing, die Flexibilität großer
Die Antwort lautet überraschenderweise ja.   vorherrschendes Modell zu ersetzen.                        Datenplattformen und die Elastizität der Cloud zu einem
                                                                                                        Bruchteil der Kosten früherer Lösungen.
                                             Data Lakes versprachen ein großes Potenzial, da sie
                                             praktisch jede Art von Daten unkompliziert laden können.
                                             Aber im Gegensatz zur organisatorischen Eleganz eines
                                             Data Warehouses gleicht die Ausführung einer Abfrage
                                             in einem ungeordneten und nicht verwalteten Data Lake
                                             etwa dem Versuch, in einem riesigen Discounter eine
                                             bestimmte Größe, Farbe und Marke eines Shirts inmitten
                                             von Tausenden nicht markierter Kästen zu finden.

                                                                                                                                                                      8
DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN - Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist
ERFOLGSLEITFÄDEN
DIE CLOUD IST DER
NATÜRLICHE ORT FÜR DAS
MODERNE DATA WAREHOUSE
Die Vorteile des modernen Data Warehousing für     Diese Migration hat definitiv viele der Hauptprobleme      Diese Cloud-basierten Systeme bieten beispielsweise
die Cloud drängen die anfänglichen Bedenken, die   bezüglich der Verwaltbarkeit lokaler Data-Warehouse-       die gleiche traditionelle Architektur, bei der Daten und
Daten eines Unternehmens aus seinem lokalen        Systeme gelöst. Jetzt kann sich Ihr Unternehmen            Rechenleistung auf demselben Knoten oder Cluster
                                                   auf Cloud-basierte Anbieter verlassen, die diesen          gespeichert sind. Das bedeutet, dass für die Skalierung
Rechenzentrum auszulagern, auch weiterhin in den
                                                   Anforderungen über verwaltete Dienste nachkommen.          auf wachsende Anforderungen ein umständlicher Prozess
Hintergrund.                                       Aber nicht alle Cloud-basierten Data Warehouses bieten     zur Neuverteilung von Daten erforderlich ist, bevor
                                                   die gleiche Architektur und Technologie, um die Vorteile   die neuen Ressourcen genutzt werden können. Die
                                                   der Cloud vollständig nutzen zu können.                    beliebteste Option besteht darin, nichts zu tun, außer
                                                   Tatsächlich bereiten viele Cloud-basierten Data            weiterhin den Datenverkehr zu überwachen, um für
                                                   Warehouses immer noch einige der gleichen Probleme         jeden User und Job im Data Warehouse eine geringe
                                                   im Hinblick auf innovative Analysen wie lokale Systeme.    Leistung bereitstellen zu können. Währenddessen warten
                                                   Dabei handelt es sich wirklich nur um „cloudartige“        Unternehmen nach wie vor darauf, ihre Vision einer
                                                   Lösungen oder sogar nur gehostete Versionen von            analysegestützten Zukunft zu verwirklichen.
                                                   lokalen Data Warehouses. Für diese Systeme sind            Durch die Cloud wurden zwar einige der
                                                   weiterhin große Teams erforderlich, die sich um ETL und    Herausforderungen, die sich durch lokale Systeme
                                                   Datenbankverwaltung kümmern.                               ergeben, in Angriff genommen, aber um wirklich von
                                                                                                              der Analytik-Revolution zu profitieren, benötigen
                                                                                                              Unternehmen ein speziell für die Cloud entwickeltes
                                                                                                              Data Warehouse, das die oben beschriebenen
                                                                                                              Herausforderungen bewältigen kann.

                                                                                                                                                                           9
ERFOLGSLEITFÄDEN
SPEZIELL FÜR DIE CLOUD
ENTWICKELTES DATA WAREHOUSING
AS A SERVICE
Mit den richtigen Funktionen und der richtigen    Nur das moderne Data Warehouse, das speziell für die       Das ideale Data Warehouse as a Service führt diese
Architektur bietet ein speziell für die Cloud     Cloud entwickelt wurde, kann die folgenden definierenden   beiden Ansätze mit einer komplett neuen Architektur
                                                  Eigenschaften zur Umgestaltung der Datenanalyse bieten:    weiter, die Speicherressourcen von Rechenressourcen
entwickeltes Data Warehousing as a Service                                                                   trennt, um Geschwindigkeit und Leistung zu erhalten.
ein großes Potenzial für Unternehmen, die die     •   Exponentielle Leistungssteigerungen                    Bei jeder Abfrage, die User ausführen, jeder ETL-Routine,
Herausforderungen und Hindernisse bewältigen      •   Keine Verwaltung                                       die sie durchführen, oder bei jedem Entwicklungsjob, der
                                                                                                             gestartet wird, würde ein separater Rechencluster auf
wollen, mit denen sie aufgrund anderer            •   Unbegrenzte Skalierbarkeit, nach oben und unten
                                                                                                             einer einzigen Kopie der Daten verwendet. Jede Abfrage
traditioneller Data-Warehouse- und Open-Source-   •    nbegrenzte Anzahl gleichzeitiger User ohne
                                                      U                                                      oder jeder Auftrag würde unabhängig von den anderen
                                                      Beeinträchtigung der Leistung
Systeme konfrontiert sind.                                                                                   ausgeführt und könnte während der Laufzeit nach oben
                                                  •    ativ gehandhabte Petabyte strukturierter und
                                                      N                                                      oder unten skaliert werden. Das heißt, Usern steht die
                                                      semistrukturierter Daten                               erforderliche Geschwindigkeit zur Verfügung, und sie
                                                                                                             können immer sicher sein, dass die ihnen angezeigten
                                                  Der speziell für die Cloud entwickelte Data Warehousing
                                                                                                             Daten korrekt und aktuell sind. Keine Silos.
                                                  as a Service bietet den Motor, den Unternehmen
                                                  benötigen, um eine tief gehende Analyse all ihrer Daten    Da die Lösung als Service angeboten wird, zahlen Sie
                                                  durchzuführen und ihr Geschäft weiterzuentwickeln. Die     außerdem nur für die Ressourcen, die Sie nutzen, wenn
                                                  Vorteile des modernen Data Warehouses lassen sich in       Sie sie nutzen. Unternehmen, die auf traditionelle
                                                  einige wenige Hauptkategorien einteilen.                   lokale oder „cloudartige“ Data Warehouses angewiesen
                                                                                                             sind, müssen im Voraus planen, wie viel Speicher und
                                                  ANPASSUNGSFÄHIGKEIT UND SKALIERBARKEIT                     Rechenleistung sie an einem bestimmten Tag des Jahres
                                                  Für eine optimale Skalierbarkeit und Anpassungsfähigkeit   maximal benötigen.
                                                  ohne Leistungseinbußen kombiniert das speziell für die     Der Nachteil der traditionellen Architektur ist, dass
                                                  Cloud entwickelte Data Warehouse die besten Aspekte        Sie für alle Speicher- und Rechenressourcen zahlen
                                                  der Shared-Disk- und der Shared-Nothing-Architektur.       müssen, die für die anderen 364 Tage des Jahres
                                                  Bei Shared-Disk-Architekturen wird die Datenverwaltung     ungenutzt bleiben. Auf der anderen Seite, wenn der
                                                  durch die Zentralisierung von Daten vereinfacht. Der       Bedarf Ihres Unternehmens die geplanten Speicher- und
                                                  Nachteil dabei ist jedoch ein Leistungsengpass zwischen    Rechenressourcen übersteigt, sind die Zeit und das Geld
                                                  Speicher und Rechenleistung. Demgegenüber wird bei         für die Skalierung nicht zu bezahlen. Und wenn Sie auf
                                                  Shared-Nothing-Architekturen der Engpass zwischen          traditionelle Weise skalieren, haben Sie die Ressourcen,
                                                  Speicher und Rechenleistung vermieden. Hier muss man       die für den Rest des Jahres ungenutzt bleiben, wieder
                                                  wiederum eine komplizierte Datenverwaltung in Kauf         erhöht.
                                                  nehmen – die Größenänderung des Systems erfordert eine
                                                  Umverteilung und eine erneute Replikation der Daten.

                                                                                                                                                                         10
ERFOLGSLEITFÄDEN
Durch einen echten speziell für die Cloud entwickelten     GESCHWINDIGKEIT
                                                                                                                             SPEZIELL FÜR DIE CLOUD
„As a Service“-Ansatz können Unternehmen die vom
                                                           Das speziell für die Cloud entwickelte Data Warehouse            ENTWICKELTE ARCHITEKTUR
Warehouse benötigte Menge an Speicherplatz und
                                                           optimiert automatisch die Geschwindigkeit.
Rechenleistung sofort erhöhen und verringern. So haben
Unternehmen immer genau die Ressourcen, die sie            Mit einem für die Cloud entwickelten Data Warehouse
benötigen, ohne Zeit und Geld zu verschwenden, die         können User für eine optimale Abfragegeschwindigkeit
bzw. das besser für die Entwicklung innovativer Analysen   einen MPP-Cluster für beliebig große Abfragen,
genutzt werden kann.                                       ETL-Jobs oder Entwicklungsaktivitäten automatisch
                                                           beschleunigen und dimensionieren. Wenn der Job oder
DATENVIELFALT                                              die Abfrage abgeschlossen ist, schaltet das moderne
                                                           Data Warehouse die Rechenressourcen herunter oder
Das speziell für die Cloud entwickelte Data Warehouse
                                                           aus, damit die Abrechnung für Ihr Unternehmen nicht           MEHRERE CLUSTER, GEMEINSAME DATEN
kann traditionelle strukturierte Daten verarbeiten und                                                                   ZENTRALER, ERWEITERBARER SPEICHER
                                                           mit ungenutzten Ressourcen weiterläuft. Das bedeutet
semistrukturierte Daten schnell und einfach laden und                                                                   MEHRERE, UNABHÄNGIGE RECHENCLUSTER
                                                           auch, dass mit dem modernen speziell für die Cloud
abfragen.
                                                           entwickelten Data Warehouse eine unbegrenzte Anzahl
Ein modernes speziell für die Cloud entwickelte Data       gleichzeitiger Abfragen möglich sind, ohne die Leistung zu
Warehouse sollte Key-Value-Tags und verschachtelte         beeinträchtigen.
Array-Strukturen innerhalb semistrukturierter (oder
                                                           Bei einem modernen Data Warehouse sollten für
flexibler Schemata) Daten automatisch identifizieren
                                                           einzelne Abfragen oder Datenladungen einfache                 TRADITIONELLE ARCHITEKTUREN
und für Analysten über SQL darstellbar machen. Starre
                                                           Leistungsoptimierungsaufgaben wie Indexierung und
Datenstrukturen sollten, ohne auf interne Ressourcen
                                                           Verteilungsschlüssel, die bei älteren Technologien
angewiesen zu sein, im Voraus entworfen und entwickelt
                                                           nötig sind, nicht mehr oder nur in geringem Umfang
und die Daten dann mit ETL-Tools transformiert und
                                                           erforderlich sein. Es sollte auch ein intelligenter
in das Warehouse geladen werden. Durch diesen
                                                           Abfrageoptimierer vorhanden sein, der automatisch
Ansatz wird der Zeit- und Ressourcenaufwand, den
                                                           Statistiken über Dateneigenschaften sammelt, während
Unternehmen für die Transformation und das Laden
                                                           die Daten in Echtzeit geladen werden, und diese
semistrukturierter Daten benötigen, erheblich reduziert.
                                                           Informationen in einem Metadatenmodul speichert. Dann
Darüber hinaus werden die Daten über SQL sowie SQL-                                                                           GEMEINSAME FESTPLATTE
                                                           sollte durch erweiterte Optimierungen der effizienteste
basierte Analyse- und BI-Tools sofort für Datenanalysten                                                                      GEMEINSAMER SPEICHER
                                                           Pfad zu den Daten dynamisch bestimmt werden. Bei                     EINZELNER CLUSTER
verfügbar gemacht. Dies gestaltet sich bei NoSQL-
                                                           diesem Prozess sollten die Abfrage- und Datenstrukturen
Systeme als schwierig.
                                                           sowie die zum Zeitpunkt der Abfrageausführung
                                                           verfügbaren MPP-Ressourcen berücksichtigt werden.
                                                           Dadurch entfällt der Zeitaufwand, der gewöhnlich für die
                                                           manuelle Analyse und Optimierung erforderlich ist, und
                                                                                                                                 SHARED NOTHING
                                                           es wird enorm viel Speicherplatz (z. B. für Indexes usw.)
                                                                                                                           DEZENTRALER LOKALER SPEICHER
                                                           und damit Geld gespart.                                              EINZELNER CLUSTER

                                                                                                                                                              11
ERFOLGSLEITFÄDEN
VERWALTBARKEIT                                               SICHERHEIT
Durch Data Warehousing as a Service müssen nicht mehr        Die Sicherheit bleibt das Hauptanliegen von
umfangreiche Personal- und Kapitalressourcen eingesetzt      Unternehmen, die Daten in die Cloud migrieren. Hier
werden. Das schafft Zeit und Arbeitskraft, um sich auf       einige der branchenüblichen Maßnahmen, die ein Data
die Generierung von Einsichten aus Datenanalyse und          Warehouse für die Cloud bieten sollte:
Business Intelligence zu konzentrieren.
                                                             1 VERSCHLÜSSELUNG VON DATEN „IN TRANSIT“                    3 	 MEHRSTUFIGE AUTHENTIFIZIERUNG
Das speziell für die Cloud entwickelte Data Warehouse
                                                                UND „AT REST“
as a Service macht den Kauf, die Ausführung und die                                                                       	Als Best Practice sollte jeder, der auf Daten in
Wartung der vielen Elemente eines Rechenzentrums,            	Wenn ein nicht autorisierter User Zugriff auf Ihre Daten     einem Data Warehouse für die Cloud zugreift,
die für traditionelle lokale Lösungen erforderlich sind,       erhält, darf er diese nicht lesen können. Punkt. Das         dies über die mehrstufige Authentifizierung tun.
                                                               moderne Data Warehouse für die Cloud sollte Daten            Nach der Anmeldung mit einem Usernamen und
überflüssig. Die meisten Anbieter von Data Warehouses
                                                               „in transit“ und „at rest“ schützen, wenn sie über ein
für die Cloud bieten jedoch nur einige Aspekte der                                                                          einem Passwort benötigt der User einen zweiten
                                                               Netzwerk gesendet oder auf der Festplatte gespeichert
Installation, Verwaltung und Optimierung ihrer Lösungen.       werden. Dazu gehören persistente gespeicherte                Authentifizierungsmechanismus. Dies kann ein
Diese Alternativen werden gewöhnlich in Form von IaaS          Daten, Abfrageergebnisse und der Inhalt eines lokalen        Zufallscode sein, der von einer App auf dem
(Infrastructure as a Service) oder PaaS (Platform as           Festplattencache. Außerdem sollte eine moderne               Smartphone des Users erzeugt wird.
a Service) angeboten.                                          Data-Warehouse-Lösung für die Cloud die neuesten
                                                               branchenüblichen Verschlüsselungsalgorithmen               4 	 ÜBERPRÜFUNG DURCH DRITTE
Nur ein echtes speziell für die Cloud entwickelte
                                                               verwenden. Der Advanced Encryption Standard, AES,
SaaS-Data-Warehouse (Software as a Service Data                mit 128-Bit-Schlüsseln, ist die Mindestanforderung         	Anbieter für Data Warehouses in der Cloud sollten die
Warehouse) bietet die gesamte Hardware und Software            für symmetrische Verschlüsselung. Für noch mehr              folgenden Standards einhalten, je nachdem, welche Art
als Teil seines Services, einschließlich aller Aspekte der     Sicherheit wird für die stabilsten Data Warehouses für       von Daten Sie speichern möchten:
Verwaltung dieser Ressourcen. In der Regel sind Software       die Cloud AES-256 verwendet.                                  SOC 2: Der Zweck eines SOC 2-Berichts ist
und Hardwareupgrades, Sicherheit, Verfügbarkeit,                                                                              die Bewertung der Informationssysteme eines
Datenschutz und Leistungsoptimierung im Service              2 	 SCHLÜSSELVERWALTUNG                                         Unternehmens, die für Sicherheit, Verfügbarkeit,
enthalten.                                                   	Sie sollten bei jedem Data Warehouse die                       Verarbeitungsintegrität, Vertraulichkeit oder
Das bedeutet, dass mehr IT-Mitarbeiter und                     Datenmenge, die von einem einzelnen                            Datenschutz relevant sind.
Datenanalytiker mehr Zeit haben, Daten zu finden, zu           Verschlüsselungscode abgedeckt wird, und
                                                               die Nutzungsdauer des Schlüssels begrenzen.                	HIPAA: PHI-Daten (Protected Health Information,
untersuchen und damit zu experimentieren. Und mit                                                                           geschützte Gesundheitsdaten) unterliegen den
                                                               Dies ist branchenübliche Best Practice,
dieser zusätzlichen Zeit gewinnen Sie das Wissen und           die durch Schlüsselrotation und erneute                      Datenschutz- und Sicherheitsregeln des Health
die Erkenntnisse, die erforderlich sind, um Ihre Produkte,     Datenschlüsselerstellung erreicht wird.                      Insurance Portability and Accountability Act (HIPAA).
Geschäftspraktiken und Abläufe zu verändern.
                                                              Die Schlüsselrotation ist eine Methode zur periodischen
                                                             	                                                           	PCI: Die Einhaltung der PCI-Richtlinien
                                                                Generierung eines neuen Verschlüsselungsschlüssels,         (Payment Card Industry, Kreditkartenindustrie)
                                                                um neu eingegebene Daten zu schützen.                       bedeutet die Einhaltung einer Reihe spezifischer
                                                              Mit der erneuten Schlüsselerstellung können Sie zu
                                                             	                                                             Sicherheitsstandards, die zum Schutz von
                                                                zuvor gespeicherten Daten zurückgehen, diese                Kreditkartendaten während und nach einer
                                                                mit neu generierten Verschlüsselungsschlüsseln              Finanztransaktion entwickelt wurden. Alle
                                                                erneut verschlüsseln und dann die alten                     Kartenmarken erfordern PCI-Konformität.
                                                                Verschlüsselungsschlüssel entfernen.

                                                                                                                                                                                    12
ERFOLGSLEITFÄDEN
DIE GESCHÄFTSVORTEILE DER
IMPLEMENTIERUNG EINES DATA
WAREHOUSES FÜR DIE CLOUD
Inwieweit Ihr Unternehmen Datenanalysen nutzen        Wenn Sie nur langsame Abfragen zur Generierung
kann, hängt größtenteils von dem zugrunde             einfacher Berichte durchführen können, wie sollen
liegenden Modul ab.                                   Sie dann jemals Data Mining, Vorhersageanalysen,
                                                      maschinelles Lernen oder was auch immer sich als                  Unternehmen, die
Wenn Wettbewerber effektivere Wege zur                nächster Trend im Bereich Analysen herausstellt nutzen       Entscheidungen mithilfe von
                                                      können? Schließlich können die Erkenntnisse, die Sie
Datenspeicherung und Verbesserung ihrer                                                                            Daten treffen, werden ihren
                                                      durch eine unbeschränkte Datenanalyse gewinnen, die
Analysen finden, werden langsamere Unternehmen                                                                     Kunden helfen, ihre Abläufe
                                                      Informationen sein, die Sie zur Transformation Ihres
zurückbleiben, nicht nur in Bezug auf Innovationen,   Unternehmens benötigen.                                      optimieren und ihre Branche
sondern auch bezüglich Umsatz und Rentabilität.
                                                      „Einblicke finden sich oft an den Grenzen“, sagt McKinsey.
                                                                                                                            anführen
Pauschal gesagt verbringen Datenanalysten
80 Prozent ihrer Zeit mit dem Abrufen und             „So wie ‚weiche‘ Daten neue Erkenntnisse liefern können,
                                                                                                                   Das speziell für die Cloud entwickelte
                                                      kann die Kombination der eigenen Informationsquellen
Organisieren von Daten und die übrigen                                                                             Data Warehouse as a Service bietet die
                                                      diese Erkenntnisse noch vergrößern.“3
20 Prozent mit tatsächlichen Datenanalysen.                                                                         Grundlage dafür. Durch Maximierung
Wie viel näher käme Ihr Unternehmen einem             In den kommenden Jahren werden die Unternehmen
                                                                                                                   der Geschwindigkeit, Minimierung der
                                                      wachsen, die sich schnell an die Veränderungen um
datengesteuerten Geschäft, wenn dieses Verhältnis                                                                    Kosten und die Verfügbarmachung
                                                      sie herum anpassen. Um diese Änderungen klar zu
umgekehrt lauten würde?                               erkennen, benötigen Sie eine solide Plattform, mit der          von Personalressourcen können
                                                      Sie Ihre Datenanalyse vorantreiben können. Tragen Sie         Unternehmen die Zeit und Flexibilität
                                                      also dazu bei, Ihr Unternehmen in ein datengesteuertes        gewinnen, die sie benötigen, um den
                                                      Unternehmen zu verwandeln.                                     aus ihren Daten gewonnenen Wert
                                                                                                                             effektiver zu nutzen.

                                                                                                                                                            13
ERFOLGSLEITFÄDEN
CASE STUDY: VON DER IMPLEMENTIERUNG
BIS ZU „SCHWARZE ZAHLEN SCHREIBEN“
IN WENIGER ALS EINEM JAHR
Mit dem richtigen Data Warehouse als Grundlage        PDX, ein SaaS-Analyseanbieter für Tausende von             Möchten Sie mehr Informationen dazu, wie Sie Ihr
ist eine durch leistungsstarke Analysen               Apotheken, erlebte viele der Nachteile seines alten Data   Unternehmen in ein datengesteuertes Unternehmen
unterstützte Zukunft leicht vorstellbar. Vielleicht   Warehouses. Nach einem Proof of Concept entschied          verwandeln?
                                                      man sich für die Implementierung eines speziell für die
veranschaulicht eine einfache Geschichte von                                                                     Besuchen Sie die Ressourcenbibliothek von Snowflake
                                                      Cloud entwickelten Data Warehouses mit der oben
Geschwindigkeit, Mehrwert und ROI am besten           beschriebenen Geschwindigkeit, Skalierbarkeit und
die transformative Bedeutung des speziell für die     Verwaltbarkeit.
Cloud entwickelten Data Warehouse as a Service.
                                                      Nach einer schnellen Implementierung kombinierte das
                                                      Unternehmen sein neues Data Warehouse mit einem
                                                      Analysetool und begann mit der Entwicklung eines
                                                      Datenanalysedienstes für seine Apothekenkunden. Dieser
                                                      Dienst bot Apotheken Informationen zu ihren Kunden,
                                                      die mit dem bisherigen Data Warehouse von PDX nicht
                                                      möglich waren.
                                                      Innerhalb von acht Monaten ist dieser Dienst so
                                                      erfolgreich geworden, dass die SaaS-Lösung von PDX
                                                      „schwarze Zahlen schrieb“. Dieses Unternehmen hatte
                                                      also in weniger Zeit, als es für die Implementierung
                                                      eines alten Data-Warehouse-Systems erforderlich ist,
                                                      sein speziell für die Cloud entwickeltes Data Warehouse
                                                      in Betrieb genommen und eine Kombination von
                                                      Datenquellen von einem einzigen Standort aus genutzt
                                                      und gleichzeitig Gewinn erzielt.

                                                                                                                                                                       14
ÜBER SNOWFLAKE
                                                            Snowflake ist das einzige Data Warehouse, das für die Cloud entwickelt wurde, um datenintensiven
                                                         Unternehmen sofortige Elastizität, einen sicheren Datenaustausch sowie eine sekundengenaue Abrechnung
                                                          über mehrere Clouds hinweg zu ermöglichen. Snowflake kombiniert die Vorteile von Data Warehousing,
                                                          die Flexibilität von Big Data-Plattformen sowie die Elastizität der Cloud – zu einem Bruchteil der Kosten
                                                             herkömmlicher Lösungen. Snowflake: Your data, no limits. Erfahren Sie mehr unter snowflake.com.

                                                                                               © 2019 Snowflake. Alle Rechte vorbehalten.

ZITATE
1
    Brad Brown und Josh Gottlieb, „The Need to Lead in Data and Analytics“, McKinsey, 2016. www.mckinsey.com/business-functions/digital-mckinsey/our-insights/the-need-to-lead-in-data-and-analytics (retrieved 22.12.2016)
2
    „Forward Thinking: A Look Ahead at Tech Jobs“, Modis, 2016. www.modis.com/it-insights/infographics/top-it-jobs-of-2017/ (retrieved 17.01.2017)

	Helen Mayhew, Tamim Saleh und Simon Williams, „Making data analytics work for you – instead of the other way around“, McKinsey Quarterly, 2016.
3

    www.mckinsey.com/business-functions/digital-mckinsey/our-insights/making-data-analytics-work-for-you-instead-of-the-other-way-around (retrieved 22.12.2016)
Sie können auch lesen