Die vier zentralen Säulen einer Big-Data-Management-Lösung - WHITEPAPER

Die Seite wird erstellt Ulrich Engel
 
WEITER LESEN
Die vier zentralen Säulen einer Big-Data-Management-Lösung - WHITEPAPER
WHITEPAPER

Die vier zentralen Säulen
einer Big-Data-
Management-Lösung
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 EXECUTIVE SUMMARY ...................................................................................... 4	
  
                 1.	
   Big Data: ein „großer“ Begriff .......................................................................... 4	
  

                 NEUE BIG-DATA-ANWENDUNGSFÄLLE .......................................................... 7	
  
                 Empfehlungsdienste .............................................................................................. 7	
  
                 Analyse von Marketingkampagnen ....................................................................... 7	
  
                 Kundenbindungs- und Kundenabwanderungs-Analyse ........................................ 8	
  
                 Analyse sozialer Graphen ..................................................................................... 8	
  
                 Kapitalmarktanalyse .............................................................................................. 8	
  
                 Prädiktive Analyse ................................................................................................. 9	
  
                 Risikomanagement ............................................................................................... 9	
  
                 Rogue Trading ...................................................................................................... 9	
  
                 Betrugserkennung ................................................................................................. 9	
  
                 Privatkundengeschäft .......................................................................................... 10	
  
                 Netzwerküberwachung ........................................................................................ 10	
  
                 Forschung und Entwicklung ................................................................................ 10	
  

                 DIE HERAUSFORDERUNGEN VON BIG DATA ............................................... 11	
  
                 Knappe Ressourcen ............................................................................................ 11	
  
                 Schlechte Datenqualität + Big Data = Große Probleme ...................................... 11	
  
                 Projekt-Governance ............................................................................................ 11	
  

                 DIE VIER ZENTRALEN SÄULEN EINER BIG-DATA-MANAGEMENT-LÖSUNG
                 ............................................................................................................................ 13	
  
                 1. Big-Data-Integration ........................................................................................ 13	
  
                 2. Big-Data-Verarbeitung .................................................................................... 14	
  
                 3. Big-Data-Qualität ............................................................................................. 14	
  
                 4. Big-Data-Projektmanagement und -Governance ............................................ 14	
  

                 TALEND UND BIG DATA: VERFÜGBAR FÜR IHRE ANFORDERUNGEN VON
                 HEUTE ................................................................................................................ 15	
  
                 Talend Open Studio for Big Data ........................................................................ 15	
  
                 Talend Enterprise Big Data ................................................................................. 16	
  
                 Talend Platform for Big Data ............................................................................... 16	
  

                 RESÜMEE........................................................................................................... 16	
  
                                                                                                                                                 2
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 ANHANG: TECHNOLOGIE-ÜBERBLICK.......................................................... 17	
  
                 Das MapReduce-Framework .............................................................................. 17	
  
                 So funktioniert Hadoop ........................................................................................ 17	
  
                 Pig ....................................................................................................................... 18	
  
                 Hive ..................................................................................................................... 18	
  
                 HBase.................................................................................................................. 19	
  
                 HCatalog ............................................................................................................. 19	
  
                 Flume .................................................................................................................. 19	
  
                 Oozie ................................................................................................................... 19	
  
                 Mahout ................................................................................................................ 19	
  
                 Sqoop .................................................................................................................. 20	
  
                 NoSQL (Nicht „nur“ SQL) .................................................................................... 20	
  

                 ÜBER TALEND................................................................................................... 21	
  
                 Kontaktieren Sie uns ........................................................................................... 21	
  

                                                                                                                                                3
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Executive Summary
                 Mit dem Einzug von Big Data stehen Unternehmen heute vor einem technologischen
                 Paradigmenwechsel. Big Data sorgt für radikale und tiefgreifende Veränderungen im
                 Berufsbild des Datenmanagers und stellt völlig neue Anforderungen im Hinblick auf Volumen,
                 Schnelligkeit und Vielfalt von Unternehmensdaten. Um die Versorgung mit wertvollen und
                 aussagekräftigen Informationen sicherzustellen, müssen moderne Unternehmen ihre
                 Datentechnologien und -strategien überdenken und anpassen. Big Data liefert neue
                 Erkenntnisse zu Geschäftschancen (und -risiken) und kann moderne Unternehmen, wie wir
                 sie heute kennen, zumindest in Teilen grundlegend verändern. Folgendes können wir über
                 Big Data festhalten:

                     •   Big Data bedient reale Marktbedürfnisse auf der Grundlage neuer Technologien.

                     •   Während manche Unternehmen noch mögliche Einsatzgebiete sondieren, profitieren
                         andere bereits von nutzbringenden Big-Data-Anwendungen.

                     •   Zwar ist die Datenintegration äußerst wichtig für das Big-Data-Management, doch
                         künftig werden auch Projekt-Governance und Datenqualität eine Schlüsselrolle bei
                         Big-Data-Projekten spielen.

                     •   Die Experimentierphase ist vorbei. Big-Data-Projekte werden schon bald einen
                         strategischen Stellenwert im Unternehmen einnehmen.

                     •   Es werden Entwicklertools benötigt, um den Einzug dieser neuen Technologien
                         voranzutreiben und die jetzige Abhängigkeit von hochqualifizierten Entwicklern zu
                         verringern. Alle großen Infrastruktur- und Datenbankanbieter bringen momentan Big-
                         Data-Lösungen auf den Markt.

                 1. Big Data: ein „großer“ Begriff
                 Der Begriff „Big Data“ ist schwer zu greifen. Was für eine Organisation als
                 „große“ Datenmenge gilt, muss für eine andere noch lange nicht groß sein. Big Data lässt sich
                 nicht über bestimmte Technologien definieren. Vielmehr umfasst Big Data eine Reihe von
                 Verfahren und Technologien. Bei Big Data handelt es sich um einen neuen, extrem
                 dynamischen Bereich, in dem wir gerade erst lernen, das volle Potenzial auszuschöpfen.
                 Daher verändert sich seine Definition. Dennoch glauben viele, dass Big Data neue Branchen
                 und Märkte hervorbringen und bestehende verändern wird. Denn Big-Data-Technologien
                 machen völlig neue Produkte und Funktionen möglich, von denen wir bisher nur zu träumen
                 wagten bzw. an die wir noch nicht einmal gedacht haben.

                                                                                                             4
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 1.1 „Big“ Data

                 Wie der Name schon sagt, ist Big Data durch die Größe bzw. durch das Volumen der
                 Informationen gekennzeichnet. Doch neben der Größe sind auch Schnelligkeit und Vielfalt
                 von Bedeutung. Werfen wir zunächst einen Blick auf die Vielfalt. Der Begriff „Big Data“ bezieht
                 sich oft auf unstrukturierte und halbstrukturierte Inhalte, die in klassischen relationalen
                 Speicher- und IT-Umgebungen Probleme verursachen können. Unstrukturierte und
                 halbstrukturierte Daten findet man so gut wie überall. Zum Beispiel in Form von Webinhalten,
                 Twitter-Beiträgen und Kundenkommentaren. Eine wichtige Rolle spielt auch die Schnelligkeit,
                 d.h. die Geschwindigkeit, in der Daten erstellt werden. Mit den neuen Technologien können
                 wir jetzt riesige Datenmengen analysieren und nutzen, die aus Website-Protokolldateien,
                 Social-Media-Sentimentanalysen, Umgebungssensoren oder Video-Streams stammen. Wir
                 erhalten Einblicke, die früher nicht möglich waren.

                 Um die komplexen Herausforderungen besser zu verstehen, die Volumen, Schnelligkeit und
                 Vielfalt mit sich bringen, hier einige Beispiele:

                    •    Walmart wickelt stündlich über 1 Million Kundentransaktionen ab. Diese werden in
                         Datenbanken importiert, die schätzungsweise mehr als 2,5 Petabytes an Daten
                         enthalten. Das entspricht dem 167-Fachen der Information, die in sämtlichen Büchern
                         der Bibliothek des US-amerikanischen Kongresses enthalten ist.
                    •    In Facebook gibt es 40 Milliarden Nutzer-Fotos.
                    •    Die Entschlüsselung des menschlichen Genoms dauerte ursprünglich 10 Jahre. Jetzt
                         reicht eine Woche dafür aus.
                    •    Die Hadoop-Distribution Hortonworks managt über 42.000 Yahoo!-Rechner, die
                         täglich Millionen von Anfragen verarbeiten.

                 Diese Firmen sind bei weitem nicht die einzigen, die in Big-Data-Dimensionen denken. Immer
                 mehr Unternehmen erkennen, dass diese riesigen Datenspeicher voller wertvoller,
                 geschäftsrelevanter Informationen stecken.

                 1.2 „Big“ Technologien

                 Möchte man die Implikationen dieses neuen IT-Paradigmas verstehen, braucht man ein
                 grundlegendes Verständnis für die Technologien und die zentralen Konzepte, die sich hinter
                 Big Data verbergen. Big Data wird durch völlig neue Konzepte, Begriffe und Technologien
                 definiert. Grundlage für seine revolutionäre Entwicklung ist ein Konzept namens MapReduce.
                 MapReduce stellt eine massive parallele Umgebung bereit, in der schwierige, rechenintensive
                 Operationen innerhalb kürzester Zeit ausgeführt werden können.

                                                                                                               5
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 2004 von Google eingeführt, ermöglicht MapReduce dem Programmierer, Daten so zu
                 transformieren, dass sich diese auf einem Cluster mit mehreren Tausend parallel arbeitenden
                 Rechnern verarbeiten lassen. Wesentlicher Kern ist die Verwendung einer Reihe von „Maps“,
                 mit denen sich eine Aufgabe auf mehrere parallele Server verteilen lässt. Anschließend
                 werden die Ergebnisse von jeder Map-Instanz mithilfe einer „Reduce“-Funktion konsolidiert,
                 um eine Lösung für das ursprüngliche Problem zu finden.

                 Viele Big-Data-Technologien sind quelloffen verfügbar, darunter Hadoop, Pig und Hive. Open
                 Source bietet zahlreiche Vorteile wie z.B. standardbasierte Interoperabilität, Community-
                 Entwicklung, Kostenvorteile gegenüber proprietärer Software und kontinuierliche Innovation.

                 Eine detailliertere Beschreibung zur Funktionsweise der MapReduce-Technologie, sowie ein
                 Glossar zu den Big-Data-Technologien finden Sie im Anhang dieses Whitepapers.

                 1.3 „Big“ Paradigmenwechsel

                 Big-Data-Technologien haben schon jetzt unser Leben grundlegend verändert. Facebook,
                 Groupon, Twitter, Zynga und zahlreiche andere neue Geschäftsmodelle haben ihre Existenz
                 diesen neuen Technologien zu verdanken. Wir erleben gerade einen technologischen
                 Paradigmenwechsel, der noch größere Auswirkungen haben könnte als die
                 Kommerzialisierung des Internets Ende der neunziger Jahre. Ganze Branchen und Märkte
                 werden betroffen sein, wenn wir die neuen Technologien nach und nach dazu nutzen, die
                 Funktionen und die Bereitstellung der heute verfügbaren Produkte und Services zu
                 verbessern, und sogar völlig neue Möglichkeiten schaffen, von denen wir früher nur träumen
                 konnten.

                 Nehmen wir als Beispiel die einheitliche Sicht auf den Kunden, die von
                 Stammdatenmanagement-Produkten bereitgestellt wird. Die Lösungen, die heute auf dem
                 Markt sind, verwenden einen eher statischen relationalen Speicher zum Persistieren der
                 Daten und müssen einen Algorithmus im Batch-Modus ausführen, um eine ganzheitliche Sicht
                 zu erhalten. Der Nachteil dieser Lösungen ist ihre begrenzte Performance und
                 Speicherkapazität bei der Verwendung eines eindeutigen Datensatzes. Hadoop setzt diesen
                 Beschränkungen ein Ende. Es ermöglicht, eine einheitliche Sicht auf den Kunden „on the
                 fly“ zu erstellen, die mehr Informationen enthalten kann (z.B. Transaktionsdaten). Wie würden
                 wir die auf Social-Media-Sites eingefangene Kundenstimmung nutzen, um die Sicht auf den
                 Kunden zu vervollständigen?

                 Diese Art von Neuerungen könnte manch bestehenden Markt durcheinanderwirbeln. Denken
                 wir an ERP und Data-Warehousing, wo Big Data eine wichtige Rolle für Data-Warehouse-
                 und Analyseprodukte der nächsten Generation spielt. Wie wäre es, wenn wir mit Big-Data-
                                                                                                               6
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Technologien eine operative Datenbank ersetzen würden? Das mag radikal klingen, aber der
                 Gedanke ist alles andere als abwegig. Denn mit Big-Data-Open-Source-Tools lassen sich
                 einige dieser Funktionen erweitern und teilweise sogar ersetzen. Zudem liefern sie neue
                 Ansätze für ein modernes und effektives Datenmanagement. Wir befinden uns inmitten eines
                 massiven Technologiewandels, der gravierende gesellschaftliche Veränderungen mit sich
                 bringen wird.

                 Big Data verändert alles.

                 Neue Big-Data-Anwendungsfälle1
                 Big Data ist ein relativ neues, dynamisches Feld, doch es gibt einige Einsatzgebiete, von
                 denen Unternehmen bereits heute profitieren. Hier einige Beispiele:

                 Empfehlungsdienste
                 Seit Jahren arbeiten Unternehmen wie Amazon, Facebook und Google mit
                 Empfehlungsdiensten, um Produkte, Dienstleister und Anzeigen vorzuschlagen und diese auf
                 der Grundlage von Verhaltensdaten- und Nutzerprofilanalysen auf die Anwender
                 abzustimmen. Die effektive Analyse derart großer Datenmengen war eines der ersten
                 Probleme, die mithilfe von Big Data gelöst werden konnten. Dies hat die Entwicklung der
                 Technologie, wie wir sie heute kennen, maßgeblich geprägt.

                 Analyse von Marketingkampagnen
                 Je mehr Informationen im Marketing zur Verfügung stehen, desto genauer lassen sich
                 Zielgruppen definieren und ansprechen. Mit Big Data können riesige Datenmengen analysiert
                 werden – eine Aufgabe, die mit klassischen relationalen Lösungen nicht zu bewältigen ist.
                 Marketingexperten können jetzt Zielgruppen besser definieren und Produkte und Services
                 gezielter auf den Kunden abstimmen. Mithilfe von Big Data können Marketingteams große
                 Datenmengen aus neuen Datenquellen (z.B. Clickstream- und Verbindungsdaten) evaluieren,
                 um neue Erkenntnisse zum Einkaufsverhalten der Kunden zu gewinnen.

                 1
                     “Big Data Use Cases”. Amir Halfon.http://www.finextra.com/community/fullblog.aspx?blogid=6276

                                                                                                                     7
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Kundenbindungs- und Kundenabwanderungs-Analyse
                 Je mehr Produkte ein Kunde kauft, desto geringer ist die Wahrscheinlichkeit, dass er
                 abwandert. Aus diesem Grund betreiben viele Organisationen einen großen Aufwand, um ihre
                 Cross-Selling- und Up-Selling-Aktivitäten zu verbessern. Heterogene Datenformate und
                 Governance-Probleme machen es allerdings oft schwierig, Kunden und Produkte über
                 verschiedene Geschäftssparten hinweg zu analysieren. Manche Unternehmen sind in der
                 Lage, ihre Daten in ein Hadoop-Cluster zu laden, um eine breit angelegte Analyse
                 durchzuführen und Muster zu identifizieren. Dadurch erfahren sie, welche Kunden am
                 ehesten zu einem anderen Anbieter wechseln werden oder – noch besser – welche Kunden
                 am ehesten dazu bereit sind, ihre Beziehung zum Unternehmen zu vertiefen.

                 Daraufhin können Unternehmen aktiv werden, um solche Kunden zu halten oder um ihnen
                 Anreize zu geben.

                 Analyse sozialer Graphen
                 In allen sozialen Netzwerken oder Communitys gibt es User und „Superuser“. Häufig ist es
                 schwierig, solche Meinungsmacher innerhalb dieser Gruppen ausfindig zu machen. Mit Big
                 Data lassen sich Daten aus sozialen Netzwerken analysieren, um die Nutzer auszumachen,
                 die den größten Einfluss auf andere Nutzer innerhalb dieser sozialen Netzwerke ausüben. Auf
                 diese Weise können Unternehmen die „wichtigsten“ Kunden bestimmen. Dies können –
                 müssen aber nicht zwangsläufig – die Kunden sein, die sich auf herkömmliche Art und Weise
                 mittels Geschäftsanalysen ermitteln lassen (die Kunden mit den meisten Produkten oder den
                 größten Ausgaben).

                 Kapitalmarktanalyse
                 Ob wir uns für allgemeine wirtschaftliche Indikatoren, spezielle Marktindikatoren oder für die
                 Stimmung gegenüber bestimmten Unternehmen oder Aktien interessieren – die
                 Datenmengen, die analysiert werden können, sind riesig, egal ob aus klassischen oder neuen
                 Quellen. Zwar werden elementare Schlagwortanalysen und Entity-Extraction-Methoden schon
                 seit Jahren verwendet, doch die Kombination alter und neuer Datenquellen wie Twitter und
                 andere Social-Media-Plattformen liefern ein viel genaueres Bild über das, was die Menschen
                 denken – und das nahezu in Echtzeit. Die meisten Finanzinstitute nutzen heute
                 Sentimentanalysen, um die öffentliche Meinung über ihr Unternehmen, den Markt oder über
                 die Wirtschaft allgemein einzuschätzen.

                                                                                                                  8
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Prädiktive Analyse
                 Auf den Kapitalmärkten arbeiten Analysten mit erweiterten Korrelationsalgorithmen und
                 Wahrscheinlichkeitsrechnungen auf Basis aktueller und historischer Daten, um
                 Marktveränderungen vorherzusagen. Aufgrund der großen Mengen historischer Marktdaten
                 und der hohen Geschwindigkeit, in der neue Daten evaluiert werden müssen (z.B. komplexe
                 Derivatbewertungen) ist dies ein Fall für Big Data. Da Big-Data-Technologien solche
                 Berechnungen schneller und auf handelsüblicher Hardware ausführen können, sind sie ein
                 zuverlässiger Ersatz für den relativ langsamen und teuren alten Ansatz geworden.

                 Risikomanagement
                 Moderne Organisationen mit aggressiven Geschäftsmodellen möchten ihr Risiko mittels
                 kontinuierlichem Risikomanagement und einer genaueren Analyse von Risikofaktoren auf
                 Basis größerer Datensätze begrenzen. Zudem steigt der Druck, Daten trotz wachsenden
                 Volumens schneller zu analysieren. Da Big-Data-Technologien den Datenzugriff und die
                 Datenverarbeitung parallel abwickeln können, werden sie immer häufiger eingesetzt, um
                 Probleme wie diese zu lösen. Ob im Rahmen einer übergreifenden Analyse oder der
                 Integration von Risiko- und Finanzmanagement– für die Ermittlung risikoangepasster
                 Renditen bzw. Gewinne und Verluste muss eine wachsende Menge an Daten aus mehreren
                 eigenständigen Abteilungen innerhalb des Unternehmens integriert, abgerufen und „on the
                 fly“ analysiert werden.

                 Rogue Trading
                 Deep-Analytics-Verfahren, die Abrechnungsdaten mit Positionsverfolgungs- und
                 Auftragsmanagementsystemen korrelieren, können wertvolle Einblicke liefern, die mit
                 herkömmlichen Datenmanagement-Tools nicht möglich waren. Um hier Probleme zu
                 identifizieren, müssen riesige Mengen an Daten in nahezu Echtzeit aus mehreren
                 heterogenen Quellen verarbeitet werden. Diese rechenintensive Aufgabe kann jetzt mit Big-
                 Data-Technologien bewältigt werden.

                 Betrugserkennung
                 Die Korrelation von Daten aus mehreren, unzusammenhängenden Quellen vereinfacht die
                 Erkennung betrügerischer Aktivitäten. Ein Beispiel ist die Korrelation von Kredit-/Debitkarten-,
                 Smartphone-, Geldautomat- und Online-Banking-Aktivitäten mit einer Analyse des Online-

                                                                                                                9
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Verhaltens (entweder auf der Website der Bank oder auf externen Seiten). Hier hilft Big Data,
                 betrügerische Aktivitäten aufzuspüren.

                 Privatkundengeschäft
                 Im Privatkundengeschäft von Banken hat die präzise Einschätzung des Risikoprofils eines
                 Kunden oder eines Darlehens entscheidenden Einfluss darauf, ob dem Kunden eine
                 bestimmte Dienstleistung angeboten (oder verweigert) wird. Eine richtige Bewertung schützt
                 die Bank und sorgt für zufriedene Kunden. Mit dem wachsenden Zugriff auf immer
                 vollständigere Kundendaten können Banken ihr Serviceangebot genauer und zuverlässiger
                 auf den Kunden ausrichten. Darüber hinaus sind wichtige Ereignisse im Leben der Kunden,
                 wie beispielsweise eine Hochzeit, eine Geburt oder der Kauf eines Eigenheims, besser
                 vorhersehbar und erleichtern Cross-Selling- oder Up-Selling-Aktivitäten.

                 Netzwerküberwachung
                 Big-Data-Technologien werden eingesetzt, um Netzwerke jeglicher Art zu analysieren. Von
                 besseren Analysen können beispielsweise Verkehrsnetze, Kommunikationsnetze,
                 Polizeinetze und selbst lokale Firmennetze profitieren. Nehmen wir ein LAN als Beispiel.
                 Mithilfe von Big-Data-Technologien können Administratoren die riesigen Datenmengen aus
                 Servern, Netzwerkgeräten und anderer IT-Hardware nutzen, um Netzwerkaktivitäten zu
                 überwachen und Engpässe sowie andere Probleme zu erkennen, bevor sie sich negativ auf
                 die Produktivität auswirken.

                 Forschung und Entwicklung
                 Unternehmen mit einer großen Forschungs- und Entwicklungsabteilung, wie z.B.
                 Arzneimittelhersteller, nutzen Big-Data-Technologien, um die enormen Mengen textbasierter
                 Forschungsdaten und anderweitiger historischer Daten zu durchsuchen. Die gewonnen
                 Informationen werden dann bei der Entwicklung neuer Produkte herangezogen.

                                                                                                            10
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Die Herausforderungen von Big Data
                 Big Data bietet große Chancen, bringt aber auch erhebliche Herausforderungen mit sich. Es
                 umfasst eine Reihe relativ neuer Technologien, die recht komplex zu erlernen sind. Dabei gibt
                 es weder Tools, um die Verbreitung und Entwicklung voranzutreiben, noch ausreichend
                 qualifizierte Fachkräfte. Tatsächlich sind die meisten Big-Data-Projekte genau das: ein Projekt.
                 Sie sind noch nicht in die Governance-Strukturen für Projektmanagement und Data-
                 Governance eingebunden, wie man es bei größeren Unternehmen erwarten würde. Doch das
                 wird sich mit Sicherheit ändern. Lassen Sie uns nun einen Blick auf diese Herausforderungen
                 werfen.

                 Knappe Ressourcen
                 Die meisten Entwickler und IT-Architekten, die wirklich etwas von Big Data „verstehen“,
                 arbeiten für die einstigen Wegbereiter der Big-Data-Technologien, also Unternehmen wie
                 Facebook, Google, Yahoo und Twitter, um nur einige zu nennen. Andere sind bei den
                 zahlreichen Start-up-Unternehmen wie Hortonworks, Cloudera und MapR beschäftigt. Die
                 Materie ist immer noch recht komplex. Deswegen kommen neue Big-Data-Experten nur
                 langsam nach. Erschwerend kommt hinzu, dass es auf diesem jungen Markt nur wenige
                 Tools gibt, die bei der Entwicklung und Implementierung dieser Projekte helfen.

                 Schlechte Datenqualität + Big Data = Große Probleme
                 Je nachdem, welches Ziel mit einem Big-Data-Projekt verfolgt wird, kann eine schlechte
                 Datenqualität das Ergebnis massiv beeinflussen. Inkonsistente oder falsche Daten könnten
                 sich geradezu exponentiell auf Big-Data-Analysen auswirken. Da immer mehr Analysen auf
                 Basis von Big Data durchgeführt werden, wächst auch der Bedarf an Lösungen für die
                 Validierung, Standardisierung, Anreicherung und Harmonisierung von Daten. Selbst die
                 Identifizierung von Verknüpfungen kann als Datenqualitätsproblem gesehen werden, das für
                 Big-Data-Projekte gelöst werden muss.

                 Projekt-Governance
                 Wenn es um Big Data geht, bekommen die Verantwortlichen meist nur die vage Anweisung
                 vom CTO, „das Projekt irgendwie zu schaukeln“. Big Data hat seine große Zeit noch vor sich.
                 Die meisten Organisationen versuchen noch herauszufinden, welche Potenziale Big Data
                 bietet, und starten ein Forschungsprojekt oder gründen eine Art SWAT-Team. Normalerweise
                 werden Projekte wie diese nicht gemanagt. Es geht fast wie im „wilden Westen“ zu. Genauso
                 wie dies in anderen Bereichen des Datenmanagements der Fall ist, werden auch diese
                 Projekte letztendlich bestehende Unternehmensstandards und anerkannte

                                                                                                             11
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Projektmanagement-Normen für die Organisation, Bereitstellung und gemeinsame Nutzung
                 von Projektartefakten erfüllen müssen.

                 Zwar gibt es noch einige Herausforderungen, doch die Technologie ist stabil. Es ist reichlich
                 Wachstums- und Innovationspotenzial vorhanden, denn der komplette Datenmanagement-
                 Lebenszyklus einschließlich Qualität und Governance kann in dieses neue IT-Paradigma
                 übertragen werden. Das Interesse für Big-Data-Technologien ist riesig. Bald wird genügend
                 qualifiziertes Personal zur Verfügung stehen, um die Verbreitung von Big Data zu
                 unterstützen.

                                                                                                             12
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Die vier zentralen Säulen einer Big-Data-
                 Management-Lösung
                 Integration ist der Motor, Codegenerierung der Treibstoff.

                 Um die genannten Herausforderungen zu bewältigen, kommt es beim Aufbau einer Big-Data-
                 Management-Lösung im Wesentlichen auf vier Säulen an: Big-Data-Integration, Big-Data-
                 Bearbeitung, Big-Data-Qualität und Big-Data-Projektmanagement und -Governance. Talend,
                 ein führender Anbieter von Open-Source-Integrationslösungen, bietet all das in einer intuitiven
                 Datenmanagement-Umgebung, mit der sich Entwicklung, Implementierung und Governance
                 von Big Data vereinfachen lassen.

                 1. Big-Data-Integration
                 Das Laden großer Datenmengen (zahlreiche Logdateien, Daten von operativen Systemen,
                 Social-Media-Plattformen, Sensoren oder aus anderen Quellen) in Hadoop über HDFS,
                 HBase, Sqoop oder Hive wird als operatives Datenintegrationsproblem betrachtet. Talend
                 bietet eine unmittelbare Lösung, mit der sich herkömmliche Ressourcen wie Datenbanken,
                 Anwendungen und Dateiserver direkt mit Big-Data-Technologien verknüpfen lassen.

                 Talend stellt eine Reihe intuitiver grafischer Komponenten und einen Arbeitsbereich bereit,
                 der die Interaktion mit einer Big-Data-Quelle oder einem Big-Data-Ziel ermöglicht, ohne dass
                 dafür komplizierter Code erlernt oder geschrieben werden muss. Die Konfiguration der
                 jeweiligen Big-Data-Verbindung wird grafisch dargestellt und der zugrunde liegende Code
                 automatisch erzeugt. Dieser lässt sich anschließend als Dienst, ausführbare Datei oder
                 eigenständiger Job ausführen. Dabei kommen sämtliche Talend-Komponenten für die
                 Datenintegration (Anwendung, Datenbank, Service und sogar ein Stammdaten-Hub) zum
                 Einsatz, sodass der Datenaustausch von beliebigen Quellen bzw. mit beinahe jedem Ziel
                 koordiniert werden kann. Zudem bietet Talend grafische Komponenten, die eine einfache
                 Konfiguration von NoSQL-Technologien wie MongoDB, Cassandra, Hive und HBase erlauben,
                 um einen direkten, spaltenorientierten Echtzeit-Lese-/Schreibzugriff auf Big Data zu
                 ermöglichen.

                                                                                                               13
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 2. Big-Data-Verarbeitung
                 Es gibt eine Reihe von Tools, die es dem Entwickler erlauben, eine Big-Data-Parallelisierung
                 durchzuführen, um Transformationen riesiger Datenmengen vorzunehmen.
                 Programmiersprachen wie Apache Pig bieten eine Skriptsprache zum Vergleichen, Filtern,
                 Auswerten und Gruppieren von Daten innerhalb eines HDFS-Clusters. Talend abstrahiert
                 diese Funktionen in einen Komponentensatz, sodass diese Skripts in einer grafischen
                 Umgebung und als Teil eines Datenflusses definiert werden können. Auf diese Weise können
                 sie schnell entwickelt werden, ohne dass spezielle Kenntnisse der zugrunde liegenden
                 Sprache erforderlich sind.

                 3. Big-Data-Qualität
                 Talend bietet Datenqualitätsfunktionen, die auf die massiv-parallele Umgebung von Hadoop
                 zurückgreifen. Diese Datenqualitätsfunktionen stellen explizite Features und Tasks bereit, mit
                 denen Sie Duplikate innerhalb riesiger Datenspeicher mittels Profiling binnen weniger
                 Augenblicke – statt mehrerer Tage – analysieren und identifizieren können. Dabei handelt es
                 sich um eine natürliche Erweiterung von Enterprise-Datenqualitäts- und
                 Datenintegrationslösungen und Best Practices.

                 4. Big-Data-Projektmanagement und -Governance
                 Die meisten frühen Big-Data-Projekte wurden ohne explizite Projektmanagement-Strukturen
                 abgewickelt. Doch das wird sich mit Sicherheit ändern, sobald sie Teil eines größeren
                 Systems sind. Unternehmen werden dann Standards und Verfahren um diese Projekte herum
                 definieren müssen, so wie es in der Vergangenheit mit Datenmanagementprojekten der Fall
                 war. Talend bietet eine umfassende Palette an Funktionen für das Big-Data-
                 Projektmanagement. Mit Talend können die Anwender beliebige Big-Data-Jobs planen,
                 überwachen und bereitstellen und ein gemeinsames Repository nutzen, das die
                 Zusammenarbeit der Entwickler sowie die Freigabe von Projekt-Metadaten und Artefakten
                 ermöglicht. Darüber hinaus vereinfacht Talend Konstrukte wie HCatalog und Oozie.

                                                                                                            14
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Talend und Big Data: verfügbar für Ihre
                 Anforderungen von heute

                 Mit dem Open-Source-Ansatz und der flexiblen Integrationsplattform für Big Data von Talend
                 können Benutzer problemlos Daten aus verschiedenen Systemen verbinden und analysieren,
                 um den geschäftlichen Erfolg ihres Unternehmens zu steigern. Talends Big-Data-Funktionen
                 lassen sich mit den Lösungen führender Big-Data-Anbieter wie etwa Cloudera, Hortonworks,
                 Google, EMC/Greenplum, MapR, Netezza, Teradata und Vertica integrieren. Diese
                 Vielseitigkeit macht Talend zu einem der führenden Anbieter im Bereich des Big-Data-
                 Management. Unser Ziel ist es, den Big-Data-Markt zu „demokratisieren“, genau wie wir dies
                 schon bei der Datenintegration, Datenqualität, Stammdatenverwaltung,
                 Anwendungsintegration und beim Business Process Management getan haben.

                 Talend bietet drei Big-Data-Produkte:

                    1.   Talend Open Studio for Big Data
                    2.   Talend Enterprise Big Data
                    3.   Talend Platform for Big Data

                 Talend Open Studio for Big Data
                 Talend Open Studio for Big Data ist ein Open-Source-Entwicklungstool, das unsere Big-Data-
                 Komponenten für Hadoop, Hbase, Hive, HCatalog, Oozie, Sqoop und Pig umfasst und auf
                 unserer Datenintegrationslösung Talend Open Studio basiert. Das Tool wurde unter Apache-
                 Lizenz in der Community veröffentlicht. Es erlaubt dem Nutzer, alte und neue Systeme
                 miteinander zu verbinden, da Hunderte Komponenten für bestehende Systeme wie SAP,
                 Oracle, DB2, Teradata und viele andere enthalten sind. Download unter: www.talend.com.

                                                                                                          15
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Talend Enterprise Big Data
                 Talend Enterprise Big Data erweitert Talend Open Studio for Big Data um professionellen
                 technischen Support sowie um Funktionen der Enterprise-Klasse. Organisationen, die auf
                 diese Version aufrüsten, profitieren von erweiterten Kollaborations-, Überwachungs- und
                 Projektmanagementfunktionen.

                 Talend Platform for Big Data
                 Talend Platform for Big Data löst die Herausforderungen von Big-Data-Integration,
                 Datenqualität und Big-Data-Governance. Sie vereinfacht das Laden, Extrahieren und
                 Verarbeiten großer und vielfältiger Datenbestände und ermöglicht dadurch schnellere und
                 fundiertere Entscheidungen. Datenqualitätskomponenten ermöglichen das Profiling, die
                 Bereinigung und den Abgleich von Big Data durch die Verwendung einer massiv-parallelen
                 Umgebung wie Hadoop. Erweiterte Cluster-Funktionen erlauben die Integration von
                 Datenmengen jeder Größenordnung.

                 Talend Platform for Big Data on Top zur Talend Unified Platform verbessert die Produktivität
                 im Bereich Datenmanagement durch die Nutzung eines gemeinsamen Code-Repositorys und
                 einer Reihe von Tools für die Planung, das Metadatenmanagement, die Datenverarbeitung
                 und das Enablement von Services.

                 Weitere Informationen zu den Funktionen der einzelnen Produktversionen finden Sie unter
                 www.talend.com.

                 Resümee
                 Mit dem Einzug von Big Data stehen Unternehmen heute vor einem technologischen
                 Paradigmenwechsel. Die effiziente Nutzung dieser massiven Datenmengen liefert neue
                 Erkenntnisse zu Geschäftschancen (und -risiken). Big Data bietet große Chancen, bringt aber
                 auch erhebliche Herausforderungen mit sich. Es umfasst eine Reihe relativ neuer
                 Technologien, die recht komplex zu erlernen sind. Dabei gibt es weder Tools, um die
                 Verbreitung und Entwicklung voranzutreiben, noch ausreichend qualifizierte Fachkräfte. Mit
                 dem Open-Source-Ansatz und der flexiblen Integrationsplattform für Big Data unterstützt
                 Talend die Benutzer dabei, Daten problemlos aus verschiedenen Systemen zu verbinden und
                 zu analysieren, um den geschäftlichen Erfolg ihres Unternehmens zu steigern

                                                                                                           16
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Anhang: Technologie-Überblick

                 Das MapReduce-Framework
                 MapReduce bildet die Grundlage für Big-Data-Technologien wie Hadoop. Das Hadoop
                 Distributed File System (HDFS) beispielsweise verwendet diese Komponenten, um Daten zu
                 persistieren, Funktionen auszuführen und Ergebnisse zu ermitteln. NoSQL-Datenbanken wie
                 MongoDB und Cassandra setzen die Funktionen ein, um Daten zu speichern und für die
                 entsprechenden Services abzurufen. Hive nutzt das Framework als Basis für ein Data-
                 Warehouse.

                 So funktioniert Hadoop
                 Hadoop wurde entwickelt, weil die bestehenden Ansätze nicht für die Verarbeitung großer
                 Datenmengen geeignet waren. Konkret sollte Hadoop dazu dienen, täglich das gesamte
                 World Wide Web zu indexieren. 2004 entwickelte Google das Paradigma MapReduce. Yahoo!
                 startete Hadoop 2005 als Implementierung von MapReduce und veröffentlichte es 2007 als
                 Open-Source-Projekt. Prinzipiell verfügt Hadoop wie jedes andere Betriebssystem auch über
                 die grundlegenden Konstrukte, die erforderlich sind, um Rechenaufgaben auszuführen. Es hat
                 ein Dateisystem, eine Sprache zum Schreiben von Programmcode, einen Mechanismus, um
                 die Verteilung dieses Programmcodes über ein verteiltes Cluster zu verwalten, und eine
                 Methode, um die Ergebnisse dieses Programmcodes zusammenzutragen. Letzten Endes
                 besteht das Ziel darin, einen einzigen Ergebnissatz zu erhalten.

                 Mit Hadoop werden große Datenmengen in mehrere Teile zerlegt und auf eine Reihe von
                 Nodes verteilt, die auf handelsüblicher Hardware laufen. Zum Schutz vor Node-Ausfällen
                 werden die Informationen in dieser Struktur mehrfach auf verschiedene Nodes repliziert. Die
                 Daten sind nicht in relationalen Zeilen und Spalten organisiert, wie man es in der klassischen
                 Persistenz erwarten würde. Auf diese Weise lassen sich strukturierte, halbstrukturierte und
                 unstrukturierte Inhalte speichern.

                 Das HDFS arbeitet mit vier verschiedenen Arten von Nodes:

                     •   Der „Name Node“ liefert Informationen zum Standort der Daten. Er weiß, welche
                         Nodes verfügbar sind, wo genau im Cluster sich bestimmte Daten befinden und
                         welche Nodes ausgefallen sind.

                     •   Der „Secondary Node“ fungiert als Backup für den „Name Node“.

                                                                                                               17
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                     •   Der „JobTracker“ koordiniert die Datenverarbeitung mittels MapReduce.

                     •   Die „Slave Nodes“ speichern Daten und befolgen die Anweisungen des „JobTracker“.

                 Ein JobTracker bildet den Einsprungspunkt für einen „Map-Job“ oder einen Prozess, der auf
                 die Daten angewendet werden soll. Ein Map-Job ist in der Regel eine in Java geschriebene
                 Abfrage und bildet den ersten Schritt im MapReduce-Prozess. Der JobTracker fordert den
                 Name Node auf, die erforderlichen Daten für die Ausführung des Jobs zu identifizieren und zu
                 lokalisieren. Sobald er über diese Informationen verfügt, sendet er die Abfrage an die
                 entsprechenden Nodes. Die nötige Datenverarbeitung erfolgt innerhalb der dafür
                 vorgesehenen Nodes. Diese massiv-parallele Vorgehensweise ist charakteristisch für
                 MapReduce.

                 Sobald die Nodes mit der Verarbeitung fertig sind, speichern sie die Ergebnisse. Der Client
                 initiiert anschließend einen „Reduce-Job“. In einem nächsten Schritt werden die Ergebnisse
                 zusammengeführt, um die „Antwort“ für die ursprüngliche Abfrage festzulegen. Der Client
                 kann schließlich auf diese Ergebnisse auf dem Dateisystem zugreifen und für seine Zwecke
                 verwenden.

                 Pig
                 Beim Apache Pig-Projekt handelt es sich um eine höhere Datenfluss-Programmiersprache
                 und ein Execution-Framework für die Erstellung von MapReduce-Programmcode, der mit
                 Hadoop verwendet wird. Die abstrakte Sprache für diese Plattform heißt Pig Latin. Sie
                 abstrahiert den Programmiercode in eine Notation, sodass der MapReduce-Programmiercode
                 dem Code von SQL-Systemen für relationale Datenbankmanagementsysteme (RDBMS)
                 ähnelt. Pig Latin lässt sich mittels UDF (User Defined Functions) erweitern, die der Nutzer in
                 Java schreiben und direkt von der Sprache abrufen kann.

                 Hive
                 Apache Hive, eine (ursprünglich von Facebook) entwickelte Data-Warehouse-Infrastruktur auf
                 Basis von Hadoop, ermöglicht Datenzusammenfassungen, Ad-hoc-Abfragen und die Analyse
                 großer Datensätze. Sie bietet einen Mechanismus, um eine Struktur auf diese Daten zu
                 projizieren und die Daten mittels HiveQL, einer SQL-ähnlichen Sprache, abzufragen. Zudem
                 vereinfacht Hive die Integration mit Business Intelligence- und Visualisierungstools.

                                                                                                               18
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 HBase
                 HBase ist eine nicht relationale, spaltenorientierte Datenbank, die auf das Hadoop Distributed
                 File System (HDFS) aufsetzt. Sie bietet einen fehlertoleranten Speicher und einen schnellen
                 Zugriff auf große Mengen an Sparse Data. Zudem erweitert sie Hadoop um
                 Transaktionsfunktionen, sodass der Nutzer die Möglichkeit zum Aktualisieren, Einfügen und
                 Löschen hat. HBase wurde ursprünglich von Facebook für dessen Messaging-Systeme
                 entwickelt und wird auch von eBay intensiv genutzt.

                 HCatalog
                 HCatalog ist ein Tabellen- und Speicher-Management-Service für Daten, die mittels Apache
                 Hadoop erstellt werden. Dieser Service gewährleistet die Interoperabilität zwischen
                 Datenverarbeitungstools wie Pig, MapReduce, Streaming und Hive und ermöglicht die
                 gemeinsame Nutzung von Schemata und Datentyp-Mechanismen.

                 Flume
                 Flume ist ein System von Agents, die sich in einem Hadoop-Cluster befinden. Diese Agents
                 sind innerhalb der gesamten IT-Infrastruktur implementiert, sammeln Daten und integrieren
                 sie dann wieder in Hadoop.

                 Oozie
                 Oozie ist ein Workflow-System, das Jobs koordiniert, die in verschiedenen Sprachen wie etwa
                 MapReduce, Pig und Hive geschrieben wurden. Es stellt Verbindungen zwischen diesen Jobs
                 her und erlaubt es, die Reihenfolge bzw. Abhängigkeiten untereinander festzulegen.

                 Mahout
                 Mahout ist eine Data-Mining-Bibliothek, die gängige Algorithmen für das Clustering und für die
                 statistische Modellierung in MapReduce implementiert.

                                                                                                             19
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Sqoop
                 Bei Sqoop handelt es sich um einen Satz an Datenintegrationstools, mit denen Nicht-Hadoop-
                 Datenspeicher mit herkömmlichen relationalen Datenbanken und Data-Warehouses
                 interagieren können.

                 NoSQL (Nicht „nur“ SQL)
                 NoSQL bezieht sich auf eine große Gruppe von Datenspeicher-Mechanismen, die sich
                 erheblich von den bekannten, herkömmlichen relationalen Datenbanken (RDBMS)
                 unterscheiden. Diese Technologien implementieren ihre eigene Abfragesprache und basieren
                 in der Regel auf erweiterten Programmierstrukturen für Schlüssel-/Wert-Beziehungen,
                 definierte Objekte, Tabellenmethoden oder Tupel. Der Begriff wird oft verwendet, um die
                 große Vielfalt an Datenspeichern zu beschreiben, die als Big Data klassifiziert sind. Einige der
                 größten Namen in der Big-Data-Welt sind u.a. Cassandra, MongoDB, NuoDB, Couchbase
                 und VoltDB.

                                                                                                              20
WHITEPAPER Die vier zentralen Säulen einer Big-Data-Management-Lösung

                 Über Talend
                 Talend ist einer der größten Pure-Play-Anbieter von Open-Source-Software und bietet ein
                 vielfältiges Portfolio an Middleware-Lösungen für das Datenmanagement und die
                 Anwendungsintegration. Weitere Informationen erhalten Sie unter www.talend.com.

                 Kontaktieren Sie uns
                 http://de.talend.com/contact
                 sales.de@talend.com
                 info@talend.com
                 partners@talend.com

                    © Talend 2013                                                                          21
                                                                                                           WP158-DE
Sie können auch lesen