DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN - Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
DAS DATA WAREHOUSE: DER MOTOR IHRER ANALYSEN Warum das zentrale Element der Datenanalyse für datengestützte Einsichten so wichtig ist E-BOOK
INHALTSVERZEICHNIS 3 Warum Unternehmen bei der Analytik-Revolution im Rückstand sind 5 Der Weg zu transformativen Analysen wird durch Hindernisse erschwert 7 Die geschäftlichen Auswirkungen von Hindernissen bei Analysen 8 Warum das Data Warehouse immer noch relevant ist 9 Die Cloud ist der natürliche Ort für das moderne Data Warehouse 10 Speziell für die Cloud entwickeltes Data Warehousing as a Service 13 Die Geschäftsvorteile der Implementierung eines Data Warehouses für die Cloud 14 Case Study: Von der Implementierung bis zu „schwarze Zahlen schreiben“ in weniger als einem Jahr 15 Über Snowflake
WARUM UNTERNEHMEN BEI DER ANALYTIK-REVOLUTION IM RÜCKSTAND SIND Laut McKinseygeben 86 Prozent derFührungskräfte an, dass ihre Unternehmen geschieht das Gleiche mit einer Reihe von agilen ETL- (Extrahieren, beim Erreichen des Hauptziels ihrer Daten- und Analyseprogramme bisher Transformieren und Laden) und ELT-Anbietern (Extrahieren, Laden und nur bedingt erfolgreich waren. Noch beunruhigender ist, dass mehr als ein Transformieren), die die internen und externen Daten eines Unternehmens Viertel sagen, dass sie ineffektiv waren.1 in ein zentrales Repository für Lösungen zur Datenanalyse abfragen, die Dass die meisten Dateninitiativen dem tatsächlichen Bedarf heutiger ihre Arbeit erledigen. Unternehmen nicht oder gar nicht gerecht werden, zeigen zwei Was bleibt, ist die Ursache des Problems. Dieses zentrale Repository besteht wesentliche Trends. Erstens konzentrieren sich Unternehmen mehr denn typischerweise aus einem Data Warehouse, das auf alter Technologie basiert. je auf Datenanalyse. Zweitens sind die Fehler wahrscheinlich meistens in Oder ein Unternehmen hat auf eine NoSQL-Lösung wie Hadoop umgestellt. der Datenanalyseplattform des Unternehmens zu finden. In letzter Zeit haben Unternehmen die Vorteile und auch viele Nachteile Nach wie vor entwickeln sich Datenanalyseprodukte schneller als die beider Lösungen erkannt und mit einer hybriden Alternative reagiert. In dem Technologie, auf der sie basieren. Anbieter liefern weiterhin fortschrittliche, halbherzigen Versuch, ihre Datenanalyse zu verbessern, nutzen sie beide aber intuitive Lösungen, die Fachleute aller Ebenen, Abteilungen und Systeme. Unternehmen sind dann gezwungen, Data-Marts hinzuzufügen, was Geschäftsfunktionen ansprechen. Das ist das Frontend. Im Backend das Modell noch komplexer macht. Data-Marts sind aber in dem Fall für Analysen notwendig und stellen eine große Herausforderung an die Datenverwaltung dar.
EINE TRADITIONELLE KONFIGURATION FÜR DIE DATENANALYSE DATA LAKE HADOOP + NOSQL DATA-MARTS ETL BEREITSTELLUNG + ODS DATA WAREHOUSE In der Zwischenzeit erfassen Unternehmen mehr Daten als je zuvor. Und obwohl es durch Hadoop und andere NoSQL-Systeme möglich ist, Und das Volumen, die Vielfältigkeit und Geschwindigkeit der Daten verschiedene Datentypen aufzunehmen, ist es so gut wie unmöglich, die bedeuten, dass die meisten dieser Daten in der Cloud entstehen und beste Analyse der Daten zu erhalten. Diese Systeme bieten Unternehmen gespeichert werden. Es sind Petabyte an Daten verfügbar. Diese Daten keine richtige Grundlage, ihren wachsenden Datenhunger in echte versauern jedoch in Speicherlösungen außerhalb traditioneller Data Geschäftsinformationen umzusetzen. Warehouses, weil die alten Systeme neue, halbstrukturierte Datentypen In diesem E-Book untersuchen wir die Herausforderungen, mit denen nicht effizient bearbeiten können. Oder es ist einfach zu teuer, mehr Daten Unternehmen bei der Umwandlung von Daten in transformative in traditionellen Systemen zu speichern, die nicht für die Cloud entwickelt Geschäftseinsichten konfrontiert sind. Sie lernen auch die Technologien wurden. Die alte Architektur und Technologie dieser Systeme, die gebaut kennen, die Unternehmen jetzt nutzen können, um bei der Analytik- wurden, als viel weniger Daten erfasst wurden und weitaus weniger User Revolution Schritt zu halten. Mit einem modernen Data Warehouse für die Datenzugriff benötigten, sind weiterhin ein Problem. Cloud können Sie und Ihr Unternehmen dabei ganz vorne stehen.
ERFOLGSLEITFÄDEN DER WEG ZU TRANSFORMATIVEN ANALYSEN WIRD DURCH HINDERNISSE ERSCHWERT Mittlerweile sollte Ihr Unternehmen transformative ZUGRIFF AUF DATEN ERHALTEN In diesem Fall entwickeln Ihre Datenuser möglicherweise Aktionen mit Analysen durchführen. Aber durch alte Zwischenlösungen, die die Situation oft noch verschlimmern. Analysten und Geschäftsanwender warten oft Stunden, Hier ein paar häufige Optionen, die sich beim Versuch von Data Warehouses und NoSQL-Systeme entstandene wenn nicht sogar Tage, bis Daten geladen sind und Maßnahmen gegen Latenz herausbilden, und deren Folgen: architektonische oder technologische Hindernisse Abfragen ausgeführt werden. Um die Belastung des • Datensilos verhindern weiterhin die Datenanalysen, die Betriebs durch diese Workloads zu verringern, müssen Sie oft bis spät in die Nacht warten, um Daten in Ihre Data Problemumgehung: Die IT-Abteilung belässt Daten an erforderlich sind, um die Erfahrung der Datenuser ihrem ursprünglichen Speicherort außerhalb des Data Warehouses zu laden. Für heutige globale Unternehmen, ständig zu verbessern, Vorgänge zu optimieren, die Warehouses, um nicht auf langsame ETL-Prozesse die rund um die Uhr aktiv sind, sind die Daten in Ihrem Usererfahrung Ihrer Kunden weiterzuentwickeln warten zu müssen. Warehouse jedoch nie aktuell. Und bei neueren Formen und mit der Ihr Unternehmen Marktführer werden semistrukturierter Daten, wie z. B. JSON, ist es einfach Folge: User sind eingeschränkt durch begrenzte und bleiben kann. Abfrageergebnisse und die fehlende Möglichkeit, zu kompliziert, sie in ein altes Data Warehouse zu laden. Analysen auf allen Daten eines Unternehmens von Also bleiben die Daten in isoliert arbeitenden Einheiten Diese Verhinderungen lassen sich in drei einem Repository aus durchzuführen. Oder schlimmer („Silos“) außerhalb des Data Warehouses. Die Ergebnisse noch, sie versuchen, Daten manuell zu integrieren, Hauptkategorien einteilen: von Abfragen sind im Grunde ungenau, nicht mehr gültig was zu inkonsistenten Ansichten führen kann. Wenn oder ungeeignet, da die Informationen im Warehouse sie die Daten nicht gut kennen, können dabei falsche ZUGRIFF AUF DATEN ERHALTEN begrenzt und veraltet sind. Ergebnisse entstehen, wenn die Daten in diesen Silos nicht richtig verknüpft werden. ANALYSEN DURCHWEG SCHNELL ANALYSEN DURCHWEG SCHNELL VERARBEITEN • Verwendung von Spreadmarts VERARBEITEN Die Datasets Ihres Data Warehouses werden in Ihrem Problemumgehung: User extrahieren große Unternehmen auf verschiedenste Weise verwendet. Datenmengen, vielleicht über Nacht, und speichern PERSONALBESCHRÄNKUNGEN Aber durch die Ausführung gleichzeitiger Abfragen, diese Daten in Excel-Tabellen, um ihre Analysen Datenladungen und Entwicklungsjobs werden die meisten offline auszuführen. traditionellen Data Warehouses auf ein Schneckentempo Folge: Wenn sich diese Praxis verbreitet, extrahieren und oder noch mehr verlangsamt. Es kann sogar vorkommen, speichern verschiedene User verschiedene Versionen dass Datenbankadministratoren Abfragen löschen, die derselben Daten, um dann verschiedene analytische sie für nicht so wichtig halten, damit wichtigere Jobs Abfragen zu entwickeln und zu unterschiedlichen Schlussfolgerungen zu gelangen. In diesem Szenario ausgeführt werden können. ist es auch üblich, dass User andere, nicht verwaltete Datenquellen in die extrahierten Daten integrieren und die Ergebnisse so noch weiter verzerren. Letztendlich ist keines der Ergebnisse prüfbar. 5
ERFOLGSLEITFÄDEN Jede Minute, die Ihr Team für Business Intelligence Die fortgesetzte Nutzung der alten Data-Warehouse- Unternehmen mit NoSQL-Daten-Repositorys benötigen und Analysen auf Daten wartet, ist eine Minute, in der Technologie hat zu einem zusätzlichen und neuen fortgeschrittene Datenwissenschaftler, die MapReduce- keine Informationen aus diesen Daten ziehen kann. Personalproblem geführt. Der Anstieg semistrukturierter Abfragen in komplexeren Sprachen wie z. B. Java schreiben Solange Unternehmen auf Datensysteme angewiesen Daten aus Quellen wie mobilen Geräten, Social-Media- können. IT-Fachleute mit diesen MapReduce-Kenntnissen sind, bei denen der Zugriff auf Daten ein langsamer und Plattformen und Maschinendaten hat die Grenzen sind deutlich seltener verfügbar als Fachleute mit SQL- schwerfälliger Prozess ist, werden User viel weniger des traditionellen Data Warehouses aufgezeigt. Viele Erfahrung. Dies hat dazu geführt, dass Mitarbeiter in analytische Arbeit leisten können. Sie werden weiterhin Unternehmen nutzen daher NoSQL-Systeme wie Hadoop, diesen Bereichen schwer zu rekrutieren sind und es viel Lösungen zur Problemumgehung finden, die zu noch um einen „Data Lake“ zu erstellen. Die Abfrage dieser Geld kostet, sie zu halten. mehr Datensilos führen. Für Ihr Unternehmen wird nur Data Lakes ist jedoch wesentlich komplizierter als die Eine weitere Herausforderung besteht darin, dass sowohl ein unvollständiges oder ungenaues Bild seiner Daten Ausführung einer SQL-Abfrage in einem relationalen Data traditionelle Data-Warehouse-Lösungen als auch NoSQL- verfügbar sein, und Analysten werden nicht die Zeit haben, Warehouse und erfordert unterschiedliche Fähigkeiten. Systeme vor der Cloud entstanden sind. Lokale oder neue Einsichten oder Ideen in den Daten zu finden. „cloudartige“ Versionen dieser Lösungen werden niemals Bei Hadoop und anderen NoSQL-Lösungen ist das Personalproblem also noch akuter. Diese Systeme sind die Kosten, Komplexität und Kopfschmerzen reduzieren, PERSONALBESCHRÄNKUNGEN erst in den letzten 10 Jahren entstanden. Und sie haben die damit verbunden sind, alle Ihre Daten effizient Bei allem Gerede über die „Demokratisierung nicht auf magische Weise die Ergebnisse gebracht, die einzulesen und Informationen zu extrahieren. Der Zugriff der Daten“ benötigen Unternehmen immer noch der anfängliche Hype vorhergesagt hat. Hochqualifizierte auf diese Systeme wird sich jedoch weiterhin auf die technisches Personal, um ihre alten, lokal oder in der und mit diesen Lösungen vertraute Fachleute sind ein wenigen Mitglieder des technischen Teams beschränken. Cloud vorhandenen Data Warehouses zu nutzen. wesentlicher Bestandteil eines Hadoop-Projekts, damit Diese Teammitglieder werden vielen anderen Personen Fachleute im Bereich IT und Datenanalyse mit dieses einigermaßen erfolgreich wird. IT-Fachleute mit in Ihrem Unternehmen, die mit Daten arbeiten allen Qualifikationsniveaus bleiben die begehrteste diesen Fähigkeiten sind jedoch aufgrund der Neuheit und sich bei der Ausführung ihrer Arbeit auf Personalressource in einem Unternehmen. Der globale dieser Systeme und ihrer Defizite schwer zu finden. Daten verlassen, Antworten liefern, IT-Personaldienstleister Modis schätzt ein Wachstum der aber keinen Zugriff. IT-Jobs bis 2024 um 12 Prozent – fast doppelt so viel wie das prognostizierte Wachstum aller anderen Branchen.2 Bei einem traditionellen Data Warehouse müssen Mitarbeiter eines Unternehmens Folgendes erledigen: • aten laden und in die richtige Struktur für eine SQL- D Datenbank transformieren. • Die Datenbank und die Hardware verwalten, die für die Pflege der Datenbank erforderlich sind. • er „Self-Service“ Geschäftsanwendern mit ihren P Daten helfen. • eschäftsanwendern bei der Entwicklung und G Ausführung von Visualisierungen für komplexere Analysen helfen. • Komplexe SQL-Abfragen schreiben und optimieren, um eine aussagekräftige Analyse der Daten durchzuführen. 6
ERFOLGSLEITFÄDEN DIE GESCHÄFTLICHEN AUSWIRKUNGEN VON HINDERNISSEN BEI ANALYSEN Es ist kein Geheimnis, dass alte Data-Warehouse- und Ressourcenknappheit durch ineffiziente Datensysteme ES WIRD MEHR ZEIT FÜR DIE INFRASTRUKTUR NoSQL-Lösungen technologische Einschränkungen verhindert den Prozess der Produkt- und ALS FÜR DATEN AUFGEWANDT Geschäftspraktiken-Innovation anhand von Analysen. mit sich bringen. Diese Einschränkungen zeigen Es besteht einfach keine Möglichkeit, Experimente mit Viele Unternehmen investieren viel mehr Zeit und Mühe sich in dem kontinuierlichen Aufwand, der in die Aufrechterhaltung der Infrastruktur ihrer Daten Ihren Daten durchzuführen und diese Experimente zur und Datensysteme, als mit der tatsächlichen Analyse der zum Optimieren, Abstimmen, Reparieren und Generierung neuer Daten zu nutzen. Stattdessen kommen Daten. Sie über den ersten Schritt nicht hinaus; Ideen häufen sich Aufrechterhalten eines mittelmäßigen Systems an und Sie wünschen, Sie könnten etwas dagegen tun. Diese Infrastrukturanforderungen umfassen die Wartung erforderlich ist. Und all diese Bemühungen zur von Servern, die Überwachung der Systemleistung und Aufrechterhaltung eines Systems, das sein Potenzial WENN DATENZUGRIFF NICHT die Behebung von auftretenden Fehlern. Oftmals geht längst erreicht hat, bringen wahrscheinlich nur AUF ALLE USER AUSGEWEITET WERDEN KANN es darum, schwierige Entscheidungen darüber zu treffen, welche Daten geladen werden müssen und welche schrittweise Verbesserungen. Aber was ist mit den Die Belastungen durch den exponentiellen Datenanstieg Abfragen im Hinblick auf die Systemleistung gestoppt Behinderungen fürs Geschäft, die diese Technologie und den Bedarf einer wachsenden Userzahl sind für oder nicht gestoppt werden können. Je nach Größe und viele Unternehmen, die sich auf ein Data Warehouse Komplexität ihrer Plattform zur Datenanalyse beschäftigen mit sich bringt? als Grundlage ihrer Analysen verlassen, nach wie vor einige Unternehmen mehrere Vollzeitmitarbeiter, deren entscheidend. einzige Aufgabe in der Überwachung und Wartung von RESSOURCENKNAPPHEIT BEHINDERT ANALYSEN Aufgrund der Komplexität und der rasanten Rechenzentrumsinfrastrukturen besteht. Die Probleme, die durch ineffektive Datensysteme Geschwindigkeit der Skalierung der meisten Data- Abhängig von den internen Protokollen und der aktuellen verursacht werden, lassen sich auf ein Wort reduzieren: Warehouse-Lösungen brauchen Projektbeteiligte aus den Data-Warehouse-Architektur können auch die Extraktion, Bereichen Vertrieb, Finanzen und Führungskräfte, für die Transformation und das Laden der Daten in das Data Ressourcenknappheit. die Möglichkeiten einer tief gehenden Analyse von Vorteil Warehouse enorm zeitaufwendig sein. In den meisten Durch Ressourcenprobleme können Datenuntersuchung, sind, Monate oder sogar Jahre, bis sie einen Nutzen aus Unternehmen kann ETL mehrere Schritte umfassen, Business Intelligence, Reporting und Vorhersageanalysen all den verfügbaren Daten ziehen können. genauer gesagt die Bereinigung und Aufbereitung nicht detailliert durchgeführt werden. Ohne die Zeit, Diese Projektbeteiligten werden sich weiterhin auf IT- der Daten, damit sie den Anforderungen des Systems das Geld und die menschliche Intelligenz, die Sie für die und qualifizierte Datenanalysten verlassen. Die wenigen entsprechen. Generierung von Analyseergebnissen aufwenden müssen, mit Zugriff auf das Data Warehouse werden einer Insgesamt summiert sich die in Infrastruktur, werden Sie aus Ihren Daten höchstwahrscheinlich keine kleinen Anzahl von Projektbeteiligten, die sie effektiv Datenbankverwaltung und ETL (dessen Komplexität oft neuen Ideen, Produkte oder Prozesse entwickeln. Vielmehr unterstützen können, Informationen liefern. Das bedeutet durch die Infrastruktur bedingt ist) investierte Zeit. Das können Sie nur noch einfache Berichte ausführen, natürlich, dass diese wenigen Analysten den Großteil bedeutet, dass Datenteams den Datenverkehr überwachen ihres Tages damit verbringen, einfache Abfragen zur müssen und sich nicht wichtigen Analyseprojekten und während Ihre Mitbewerber ihr Unternehmen mit Extraktion und Visualisierung von Daten durchzuführen, -strategien widmen können, die ihr Unternehmen und ihre komplexen Analyseprozessen wie maschinellem Lernen, damit diese Daten präsentiert werden können, anstatt Karriere voranbringen würden. Vorhersageanalysen und Data Mining transformieren. komplexere Datenanalysen vorzunehmen. 7
ERFOLGSLEITFÄDEN WARUM DAS DATA WAREHOUSE IMMER NOCH RELEVANT IST Ist das Data Warehouse angesichts der Wie bei der Entwicklung des Data Warehouses Anfang Das moderne Data Warehouse ist das Ergebnis von Herausforderungen, die es mit sich bringt, der 90er Jahre benötigen Unternehmen einen zentralen drei Jahrzehnten und zwei sehr unterschiedlichen immer noch eine relevante Architektur für Ort, an dem sie alle ihre Daten speichen und abfragen Ansätzen zur Bereitstellung einer effektiven können. Und der Anstieg von NoSQL-Systemen wie Datenanalyse. Es repräsentiert die Leistungsfähigkeit von die Analytik von heute? Hadoop hat es nicht geschafft, das Data Warehouse als traditionellem Data Warehousing, die Flexibilität großer Die Antwort lautet überraschenderweise ja. vorherrschendes Modell zu ersetzen. Datenplattformen und die Elastizität der Cloud zu einem Bruchteil der Kosten früherer Lösungen. Data Lakes versprachen ein großes Potenzial, da sie praktisch jede Art von Daten unkompliziert laden können. Aber im Gegensatz zur organisatorischen Eleganz eines Data Warehouses gleicht die Ausführung einer Abfrage in einem ungeordneten und nicht verwalteten Data Lake etwa dem Versuch, in einem riesigen Discounter eine bestimmte Größe, Farbe und Marke eines Shirts inmitten von Tausenden nicht markierter Kästen zu finden. 8
ERFOLGSLEITFÄDEN DIE CLOUD IST DER NATÜRLICHE ORT FÜR DAS MODERNE DATA WAREHOUSE Die Vorteile des modernen Data Warehousing für Diese Migration hat definitiv viele der Hauptprobleme Diese Cloud-basierten Systeme bieten beispielsweise die Cloud drängen die anfänglichen Bedenken, die bezüglich der Verwaltbarkeit lokaler Data-Warehouse- die gleiche traditionelle Architektur, bei der Daten und Daten eines Unternehmens aus seinem lokalen Systeme gelöst. Jetzt kann sich Ihr Unternehmen Rechenleistung auf demselben Knoten oder Cluster auf Cloud-basierte Anbieter verlassen, die diesen gespeichert sind. Das bedeutet, dass für die Skalierung Rechenzentrum auszulagern, auch weiterhin in den Anforderungen über verwaltete Dienste nachkommen. auf wachsende Anforderungen ein umständlicher Prozess Hintergrund. Aber nicht alle Cloud-basierten Data Warehouses bieten zur Neuverteilung von Daten erforderlich ist, bevor die gleiche Architektur und Technologie, um die Vorteile die neuen Ressourcen genutzt werden können. Die der Cloud vollständig nutzen zu können. beliebteste Option besteht darin, nichts zu tun, außer Tatsächlich bereiten viele Cloud-basierten Data weiterhin den Datenverkehr zu überwachen, um für Warehouses immer noch einige der gleichen Probleme jeden User und Job im Data Warehouse eine geringe im Hinblick auf innovative Analysen wie lokale Systeme. Leistung bereitstellen zu können. Währenddessen warten Dabei handelt es sich wirklich nur um „cloudartige“ Unternehmen nach wie vor darauf, ihre Vision einer Lösungen oder sogar nur gehostete Versionen von analysegestützten Zukunft zu verwirklichen. lokalen Data Warehouses. Für diese Systeme sind Durch die Cloud wurden zwar einige der weiterhin große Teams erforderlich, die sich um ETL und Herausforderungen, die sich durch lokale Systeme Datenbankverwaltung kümmern. ergeben, in Angriff genommen, aber um wirklich von der Analytik-Revolution zu profitieren, benötigen Unternehmen ein speziell für die Cloud entwickeltes Data Warehouse, das die oben beschriebenen Herausforderungen bewältigen kann. 9
ERFOLGSLEITFÄDEN SPEZIELL FÜR DIE CLOUD ENTWICKELTES DATA WAREHOUSING AS A SERVICE Mit den richtigen Funktionen und der richtigen Nur das moderne Data Warehouse, das speziell für die Das ideale Data Warehouse as a Service führt diese Architektur bietet ein speziell für die Cloud Cloud entwickelt wurde, kann die folgenden definierenden beiden Ansätze mit einer komplett neuen Architektur Eigenschaften zur Umgestaltung der Datenanalyse bieten: weiter, die Speicherressourcen von Rechenressourcen entwickeltes Data Warehousing as a Service trennt, um Geschwindigkeit und Leistung zu erhalten. ein großes Potenzial für Unternehmen, die die • Exponentielle Leistungssteigerungen Bei jeder Abfrage, die User ausführen, jeder ETL-Routine, Herausforderungen und Hindernisse bewältigen • Keine Verwaltung die sie durchführen, oder bei jedem Entwicklungsjob, der gestartet wird, würde ein separater Rechencluster auf wollen, mit denen sie aufgrund anderer • Unbegrenzte Skalierbarkeit, nach oben und unten einer einzigen Kopie der Daten verwendet. Jede Abfrage traditioneller Data-Warehouse- und Open-Source- • nbegrenzte Anzahl gleichzeitiger User ohne U oder jeder Auftrag würde unabhängig von den anderen Beeinträchtigung der Leistung Systeme konfrontiert sind. ausgeführt und könnte während der Laufzeit nach oben • ativ gehandhabte Petabyte strukturierter und N oder unten skaliert werden. Das heißt, Usern steht die semistrukturierter Daten erforderliche Geschwindigkeit zur Verfügung, und sie können immer sicher sein, dass die ihnen angezeigten Der speziell für die Cloud entwickelte Data Warehousing Daten korrekt und aktuell sind. Keine Silos. as a Service bietet den Motor, den Unternehmen benötigen, um eine tief gehende Analyse all ihrer Daten Da die Lösung als Service angeboten wird, zahlen Sie durchzuführen und ihr Geschäft weiterzuentwickeln. Die außerdem nur für die Ressourcen, die Sie nutzen, wenn Vorteile des modernen Data Warehouses lassen sich in Sie sie nutzen. Unternehmen, die auf traditionelle einige wenige Hauptkategorien einteilen. lokale oder „cloudartige“ Data Warehouses angewiesen sind, müssen im Voraus planen, wie viel Speicher und ANPASSUNGSFÄHIGKEIT UND SKALIERBARKEIT Rechenleistung sie an einem bestimmten Tag des Jahres Für eine optimale Skalierbarkeit und Anpassungsfähigkeit maximal benötigen. ohne Leistungseinbußen kombiniert das speziell für die Der Nachteil der traditionellen Architektur ist, dass Cloud entwickelte Data Warehouse die besten Aspekte Sie für alle Speicher- und Rechenressourcen zahlen der Shared-Disk- und der Shared-Nothing-Architektur. müssen, die für die anderen 364 Tage des Jahres Bei Shared-Disk-Architekturen wird die Datenverwaltung ungenutzt bleiben. Auf der anderen Seite, wenn der durch die Zentralisierung von Daten vereinfacht. Der Bedarf Ihres Unternehmens die geplanten Speicher- und Nachteil dabei ist jedoch ein Leistungsengpass zwischen Rechenressourcen übersteigt, sind die Zeit und das Geld Speicher und Rechenleistung. Demgegenüber wird bei für die Skalierung nicht zu bezahlen. Und wenn Sie auf Shared-Nothing-Architekturen der Engpass zwischen traditionelle Weise skalieren, haben Sie die Ressourcen, Speicher und Rechenleistung vermieden. Hier muss man die für den Rest des Jahres ungenutzt bleiben, wieder wiederum eine komplizierte Datenverwaltung in Kauf erhöht. nehmen – die Größenänderung des Systems erfordert eine Umverteilung und eine erneute Replikation der Daten. 10
ERFOLGSLEITFÄDEN Durch einen echten speziell für die Cloud entwickelten GESCHWINDIGKEIT SPEZIELL FÜR DIE CLOUD „As a Service“-Ansatz können Unternehmen die vom Das speziell für die Cloud entwickelte Data Warehouse ENTWICKELTE ARCHITEKTUR Warehouse benötigte Menge an Speicherplatz und optimiert automatisch die Geschwindigkeit. Rechenleistung sofort erhöhen und verringern. So haben Unternehmen immer genau die Ressourcen, die sie Mit einem für die Cloud entwickelten Data Warehouse benötigen, ohne Zeit und Geld zu verschwenden, die können User für eine optimale Abfragegeschwindigkeit bzw. das besser für die Entwicklung innovativer Analysen einen MPP-Cluster für beliebig große Abfragen, genutzt werden kann. ETL-Jobs oder Entwicklungsaktivitäten automatisch beschleunigen und dimensionieren. Wenn der Job oder DATENVIELFALT die Abfrage abgeschlossen ist, schaltet das moderne Data Warehouse die Rechenressourcen herunter oder Das speziell für die Cloud entwickelte Data Warehouse aus, damit die Abrechnung für Ihr Unternehmen nicht MEHRERE CLUSTER, GEMEINSAME DATEN kann traditionelle strukturierte Daten verarbeiten und ZENTRALER, ERWEITERBARER SPEICHER mit ungenutzten Ressourcen weiterläuft. Das bedeutet semistrukturierte Daten schnell und einfach laden und MEHRERE, UNABHÄNGIGE RECHENCLUSTER auch, dass mit dem modernen speziell für die Cloud abfragen. entwickelten Data Warehouse eine unbegrenzte Anzahl Ein modernes speziell für die Cloud entwickelte Data gleichzeitiger Abfragen möglich sind, ohne die Leistung zu Warehouse sollte Key-Value-Tags und verschachtelte beeinträchtigen. Array-Strukturen innerhalb semistrukturierter (oder Bei einem modernen Data Warehouse sollten für flexibler Schemata) Daten automatisch identifizieren einzelne Abfragen oder Datenladungen einfache TRADITIONELLE ARCHITEKTUREN und für Analysten über SQL darstellbar machen. Starre Leistungsoptimierungsaufgaben wie Indexierung und Datenstrukturen sollten, ohne auf interne Ressourcen Verteilungsschlüssel, die bei älteren Technologien angewiesen zu sein, im Voraus entworfen und entwickelt nötig sind, nicht mehr oder nur in geringem Umfang und die Daten dann mit ETL-Tools transformiert und erforderlich sein. Es sollte auch ein intelligenter in das Warehouse geladen werden. Durch diesen Abfrageoptimierer vorhanden sein, der automatisch Ansatz wird der Zeit- und Ressourcenaufwand, den Statistiken über Dateneigenschaften sammelt, während Unternehmen für die Transformation und das Laden die Daten in Echtzeit geladen werden, und diese semistrukturierter Daten benötigen, erheblich reduziert. Informationen in einem Metadatenmodul speichert. Dann Darüber hinaus werden die Daten über SQL sowie SQL- GEMEINSAME FESTPLATTE sollte durch erweiterte Optimierungen der effizienteste basierte Analyse- und BI-Tools sofort für Datenanalysten GEMEINSAMER SPEICHER Pfad zu den Daten dynamisch bestimmt werden. Bei EINZELNER CLUSTER verfügbar gemacht. Dies gestaltet sich bei NoSQL- diesem Prozess sollten die Abfrage- und Datenstrukturen Systeme als schwierig. sowie die zum Zeitpunkt der Abfrageausführung verfügbaren MPP-Ressourcen berücksichtigt werden. Dadurch entfällt der Zeitaufwand, der gewöhnlich für die manuelle Analyse und Optimierung erforderlich ist, und SHARED NOTHING es wird enorm viel Speicherplatz (z. B. für Indexes usw.) DEZENTRALER LOKALER SPEICHER und damit Geld gespart. EINZELNER CLUSTER 11
ERFOLGSLEITFÄDEN VERWALTBARKEIT SICHERHEIT Durch Data Warehousing as a Service müssen nicht mehr Die Sicherheit bleibt das Hauptanliegen von umfangreiche Personal- und Kapitalressourcen eingesetzt Unternehmen, die Daten in die Cloud migrieren. Hier werden. Das schafft Zeit und Arbeitskraft, um sich auf einige der branchenüblichen Maßnahmen, die ein Data die Generierung von Einsichten aus Datenanalyse und Warehouse für die Cloud bieten sollte: Business Intelligence zu konzentrieren. 1 VERSCHLÜSSELUNG VON DATEN „IN TRANSIT“ 3 MEHRSTUFIGE AUTHENTIFIZIERUNG Das speziell für die Cloud entwickelte Data Warehouse UND „AT REST“ as a Service macht den Kauf, die Ausführung und die Als Best Practice sollte jeder, der auf Daten in Wartung der vielen Elemente eines Rechenzentrums, Wenn ein nicht autorisierter User Zugriff auf Ihre Daten einem Data Warehouse für die Cloud zugreift, die für traditionelle lokale Lösungen erforderlich sind, erhält, darf er diese nicht lesen können. Punkt. Das dies über die mehrstufige Authentifizierung tun. moderne Data Warehouse für die Cloud sollte Daten Nach der Anmeldung mit einem Usernamen und überflüssig. Die meisten Anbieter von Data Warehouses „in transit“ und „at rest“ schützen, wenn sie über ein für die Cloud bieten jedoch nur einige Aspekte der einem Passwort benötigt der User einen zweiten Netzwerk gesendet oder auf der Festplatte gespeichert Installation, Verwaltung und Optimierung ihrer Lösungen. werden. Dazu gehören persistente gespeicherte Authentifizierungsmechanismus. Dies kann ein Diese Alternativen werden gewöhnlich in Form von IaaS Daten, Abfrageergebnisse und der Inhalt eines lokalen Zufallscode sein, der von einer App auf dem (Infrastructure as a Service) oder PaaS (Platform as Festplattencache. Außerdem sollte eine moderne Smartphone des Users erzeugt wird. a Service) angeboten. Data-Warehouse-Lösung für die Cloud die neuesten branchenüblichen Verschlüsselungsalgorithmen 4 ÜBERPRÜFUNG DURCH DRITTE Nur ein echtes speziell für die Cloud entwickelte verwenden. Der Advanced Encryption Standard, AES, SaaS-Data-Warehouse (Software as a Service Data mit 128-Bit-Schlüsseln, ist die Mindestanforderung Anbieter für Data Warehouses in der Cloud sollten die Warehouse) bietet die gesamte Hardware und Software für symmetrische Verschlüsselung. Für noch mehr folgenden Standards einhalten, je nachdem, welche Art als Teil seines Services, einschließlich aller Aspekte der Sicherheit wird für die stabilsten Data Warehouses für von Daten Sie speichern möchten: Verwaltung dieser Ressourcen. In der Regel sind Software die Cloud AES-256 verwendet. SOC 2: Der Zweck eines SOC 2-Berichts ist und Hardwareupgrades, Sicherheit, Verfügbarkeit, die Bewertung der Informationssysteme eines Datenschutz und Leistungsoptimierung im Service 2 SCHLÜSSELVERWALTUNG Unternehmens, die für Sicherheit, Verfügbarkeit, enthalten. Sie sollten bei jedem Data Warehouse die Verarbeitungsintegrität, Vertraulichkeit oder Das bedeutet, dass mehr IT-Mitarbeiter und Datenmenge, die von einem einzelnen Datenschutz relevant sind. Datenanalytiker mehr Zeit haben, Daten zu finden, zu Verschlüsselungscode abgedeckt wird, und die Nutzungsdauer des Schlüssels begrenzen. HIPAA: PHI-Daten (Protected Health Information, untersuchen und damit zu experimentieren. Und mit geschützte Gesundheitsdaten) unterliegen den Dies ist branchenübliche Best Practice, dieser zusätzlichen Zeit gewinnen Sie das Wissen und die durch Schlüsselrotation und erneute Datenschutz- und Sicherheitsregeln des Health die Erkenntnisse, die erforderlich sind, um Ihre Produkte, Datenschlüsselerstellung erreicht wird. Insurance Portability and Accountability Act (HIPAA). Geschäftspraktiken und Abläufe zu verändern. Die Schlüsselrotation ist eine Methode zur periodischen PCI: Die Einhaltung der PCI-Richtlinien Generierung eines neuen Verschlüsselungsschlüssels, (Payment Card Industry, Kreditkartenindustrie) um neu eingegebene Daten zu schützen. bedeutet die Einhaltung einer Reihe spezifischer Mit der erneuten Schlüsselerstellung können Sie zu Sicherheitsstandards, die zum Schutz von zuvor gespeicherten Daten zurückgehen, diese Kreditkartendaten während und nach einer mit neu generierten Verschlüsselungsschlüsseln Finanztransaktion entwickelt wurden. Alle erneut verschlüsseln und dann die alten Kartenmarken erfordern PCI-Konformität. Verschlüsselungsschlüssel entfernen. 12
ERFOLGSLEITFÄDEN DIE GESCHÄFTSVORTEILE DER IMPLEMENTIERUNG EINES DATA WAREHOUSES FÜR DIE CLOUD Inwieweit Ihr Unternehmen Datenanalysen nutzen Wenn Sie nur langsame Abfragen zur Generierung kann, hängt größtenteils von dem zugrunde einfacher Berichte durchführen können, wie sollen liegenden Modul ab. Sie dann jemals Data Mining, Vorhersageanalysen, maschinelles Lernen oder was auch immer sich als Unternehmen, die Wenn Wettbewerber effektivere Wege zur nächster Trend im Bereich Analysen herausstellt nutzen Entscheidungen mithilfe von können? Schließlich können die Erkenntnisse, die Sie Datenspeicherung und Verbesserung ihrer Daten treffen, werden ihren durch eine unbeschränkte Datenanalyse gewinnen, die Analysen finden, werden langsamere Unternehmen Kunden helfen, ihre Abläufe Informationen sein, die Sie zur Transformation Ihres zurückbleiben, nicht nur in Bezug auf Innovationen, Unternehmens benötigen. optimieren und ihre Branche sondern auch bezüglich Umsatz und Rentabilität. „Einblicke finden sich oft an den Grenzen“, sagt McKinsey. anführen Pauschal gesagt verbringen Datenanalysten 80 Prozent ihrer Zeit mit dem Abrufen und „So wie ‚weiche‘ Daten neue Erkenntnisse liefern können, Das speziell für die Cloud entwickelte kann die Kombination der eigenen Informationsquellen Organisieren von Daten und die übrigen Data Warehouse as a Service bietet die diese Erkenntnisse noch vergrößern.“3 20 Prozent mit tatsächlichen Datenanalysen. Grundlage dafür. Durch Maximierung Wie viel näher käme Ihr Unternehmen einem In den kommenden Jahren werden die Unternehmen der Geschwindigkeit, Minimierung der wachsen, die sich schnell an die Veränderungen um datengesteuerten Geschäft, wenn dieses Verhältnis Kosten und die Verfügbarmachung sie herum anpassen. Um diese Änderungen klar zu umgekehrt lauten würde? erkennen, benötigen Sie eine solide Plattform, mit der von Personalressourcen können Sie Ihre Datenanalyse vorantreiben können. Tragen Sie Unternehmen die Zeit und Flexibilität also dazu bei, Ihr Unternehmen in ein datengesteuertes gewinnen, die sie benötigen, um den Unternehmen zu verwandeln. aus ihren Daten gewonnenen Wert effektiver zu nutzen. 13
ERFOLGSLEITFÄDEN CASE STUDY: VON DER IMPLEMENTIERUNG BIS ZU „SCHWARZE ZAHLEN SCHREIBEN“ IN WENIGER ALS EINEM JAHR Mit dem richtigen Data Warehouse als Grundlage PDX, ein SaaS-Analyseanbieter für Tausende von Möchten Sie mehr Informationen dazu, wie Sie Ihr ist eine durch leistungsstarke Analysen Apotheken, erlebte viele der Nachteile seines alten Data Unternehmen in ein datengesteuertes Unternehmen unterstützte Zukunft leicht vorstellbar. Vielleicht Warehouses. Nach einem Proof of Concept entschied verwandeln? man sich für die Implementierung eines speziell für die veranschaulicht eine einfache Geschichte von Besuchen Sie die Ressourcenbibliothek von Snowflake Cloud entwickelten Data Warehouses mit der oben Geschwindigkeit, Mehrwert und ROI am besten beschriebenen Geschwindigkeit, Skalierbarkeit und die transformative Bedeutung des speziell für die Verwaltbarkeit. Cloud entwickelten Data Warehouse as a Service. Nach einer schnellen Implementierung kombinierte das Unternehmen sein neues Data Warehouse mit einem Analysetool und begann mit der Entwicklung eines Datenanalysedienstes für seine Apothekenkunden. Dieser Dienst bot Apotheken Informationen zu ihren Kunden, die mit dem bisherigen Data Warehouse von PDX nicht möglich waren. Innerhalb von acht Monaten ist dieser Dienst so erfolgreich geworden, dass die SaaS-Lösung von PDX „schwarze Zahlen schrieb“. Dieses Unternehmen hatte also in weniger Zeit, als es für die Implementierung eines alten Data-Warehouse-Systems erforderlich ist, sein speziell für die Cloud entwickeltes Data Warehouse in Betrieb genommen und eine Kombination von Datenquellen von einem einzigen Standort aus genutzt und gleichzeitig Gewinn erzielt. 14
ÜBER SNOWFLAKE Snowflake ist das einzige Data Warehouse, das für die Cloud entwickelt wurde, um datenintensiven Unternehmen sofortige Elastizität, einen sicheren Datenaustausch sowie eine sekundengenaue Abrechnung über mehrere Clouds hinweg zu ermöglichen. Snowflake kombiniert die Vorteile von Data Warehousing, die Flexibilität von Big Data-Plattformen sowie die Elastizität der Cloud – zu einem Bruchteil der Kosten herkömmlicher Lösungen. Snowflake: Your data, no limits. Erfahren Sie mehr unter snowflake.com. © 2019 Snowflake. Alle Rechte vorbehalten. ZITATE 1 Brad Brown und Josh Gottlieb, „The Need to Lead in Data and Analytics“, McKinsey, 2016. www.mckinsey.com/business-functions/digital-mckinsey/our-insights/the-need-to-lead-in-data-and-analytics (retrieved 22.12.2016) 2 „Forward Thinking: A Look Ahead at Tech Jobs“, Modis, 2016. www.modis.com/it-insights/infographics/top-it-jobs-of-2017/ (retrieved 17.01.2017) Helen Mayhew, Tamim Saleh und Simon Williams, „Making data analytics work for you – instead of the other way around“, McKinsey Quarterly, 2016. 3 www.mckinsey.com/business-functions/digital-mckinsey/our-insights/making-data-analytics-work-for-you-instead-of-the-other-way-around (retrieved 22.12.2016)
Sie können auch lesen