Eine Frage der Technik

Big Data erfolgreich beherrschen

Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Wer Big Data erfolgreich beherrschen will, muss sich aus verschiedenen Werkzeugkästen den richtigen Tool-Mix zusammenstellen. Die eine Lösung, die alle Probleme behebt, gibt es nicht.
Es geht nicht darum, BI-Suiten und Data Warehouses gegen neue Big-Data-Tools auszutauschen, sondern die neuen Techniken sinnvoll in bestehende Systeme zu integrieren.
Es geht nicht darum, BI-Suiten und Data Warehouses gegen neue Big-Data-Tools auszutauschen, sondern die neuen Techniken sinnvoll in bestehende Systeme zu integrieren.
Foto: Fotolia / Dreaming Andy

von Martin Bayer
Dass die Datenmengen wachsen und auch in Zukunft wachsen werden, ist eine Binsenweisheit und dürfte sich mittlerweile in jedem Unternehmen herumgesprochen haben. Die Beherrschung der Datenflut allein mit Big Data gleichzusetzen greift jedoch zu kurz. Das Thema hat viele unterschiedliche Facetten. Genau das macht es für Anwenderunternehmen alles andere als banal und einfach, das Big-Data-Phänomen anzugehen. Folgende Aspekte spielen zusammen:

  1. Neben der puren Menge an Daten wächst auch die Zahl der Datenquellen, die die Unternehmen im Blick behalten müssen. Es sind nicht mehr nur die klassischen transaktionalen Systeme, aus denen die Daten in die Firmen sprudeln. Vielmehr gilt es heute auch Maschinendaten beziehungsweise Informationen aus sozialen Netzwerken richtig zu kanalisieren.

  2. Mit der Vielzahl der Datenquellen wächst auch die Datenvielfalt. Zu den strukturierten Transaktionsdaten, die sich klassisch in relationalen Datenbanksystemen fassen lassen, kommen wenig beziehungsweise kaum strukturierte Daten hinzu wie beispielsweise Texte, Bilder und Videos. Um diese Datentypen sinnvoll zu analysieren und zu verwalten und bearbeiten, sind neue Wege zu gehen.

  3. Zugleich müssen Daten und Informationen immer mehr Nutzern zugänglich gemacht werden. Das betrifft nicht nur die Mitarbeiter im eigenen Unternehmen, sondern die gesamte Wertschöpfungskette - vom Lieferanten bis hin zu den Kunden. Es wächst also nicht nur die Zahl der Datenquellen, sondern auch die der Datenkonsumenten.

  4. Unterschiedliche Datenquellen, verschiedene Datentypen sowie die immer weiter reichende Verteilung von Informationen stellen neue Herausforderungen an den Datenschutz. Darüber hinaus bergen die komplexer werdenden Dateninfrastrukturen die Gefahr von Fehlern und Manipulationen. Daher nimmt die Bedeutung von Datenintegrität und Datenqualität weiter zu.

Doch damit hört die Komplexität rund um Big Data noch nicht auf. Genauso vielschichtig und undurchsichtig wie die durch die Datenflut verursachten Herausforderungen präsentiert sich das Angebots- beziehungsweise Lösungspanorama. Mit der Verbreitung des Big-Data-Begriffs habe sich eine unübersichtliche Anbieterlandschaft entwickelt, sagen die Analysten der Experton Group. Komplexe Pakete tauchen ebenso wie Einzelbausteine als Big-Data-Lösungen am Markt auf. Hinzu kommen Anbieter, die vorhandene Produkte Dritter mit ihren eigenen Lösungen kombinierten. Hier den Überblick zu behalten fällt zunehmend schwer.

Daten für Windräder

Die Angelegenheit wird aus Sicht der Analysten auch dadurch komplizierter, dass viele Anbieter in ihrer Kommunikation auf theoretischen Anwendungsbeispielen aufbauten. Konkrete Referenzen sind in diesem noch jungen Markt eine Seltenheit. Dort, wo es sie gibt, sind sie meist sehr spezifisch und kaum auf andere Unternehmen zu übertragen. IBMs Big-Data-Vorzeigeprojekt beim dänischen Windkraftanlagenhersteller Vestas, der für die Wahl des richtigen Standorts bis zu 160 verschiedene Faktoren und damit Daten im Petabyte-Bereich untersucht, ist so ein Beispiel.

Dasselbe gilt für SAPs "Oncolyzer", der in der Berliner Charité auf Basis der In-Memory-Datenbank HANA in kürzester Zeit verschiedenste medizinische Daten auswerten und so eine individuelle Krebstherapie ermöglichen soll. Für andere Unternehmen bleibt es angesichts solcher Individualfälle schwierig, die richtige Antwort für ihr eigenes Big-Data-Problem zu finden.

The Big Five

Die Analysten haben fünf verschiedene Themengebiete definiert, die Anwender bei ihrer Suche im Blick behalten sollten:

  • Big-Data-Infrastruktur: Datenspeicherlösungen, Verknüpfung von Daten und Datenbanken, Appliances, Computerhardware.

  • Big-Data-Aggregation:Zusammenführen von Daten aus unterschiedlichen Quellen, Integration, Data-Security, -Integrity und -Quality

  • Big-Data-Analytics: Business-Intelligence-Lösungen, Data Warehouse, Advanced Analytics

  • Big-Data-Syndizierung: Visualisierung und Ausspielen von Ergebnissen an viele Benutzer, Konzepte wie Linked Open Data.

  • Big-Data-Consulting und -Services: Consulting und -Services

Die Herausforderungen in Sachen Technik beginnen mit der Infrastruktur. Drei Viertel aller IT-Entscheider sehen Handlungsbedarf, ihre Storage- und Datenbanksysteme anzupacken. Auswirkungen auf die Analysen und Reporting hat dagegen erst die Hälfte der Befragten ausgemacht.

Der DB-Markt rumort

Gefordert auf der Infrastrukturseite sind unter anderem die Hersteller von Datenbanken. Lange Zeit schienen die Verhältnisse in diesem Markt klar. In den Anwenderunternehmen waren die relationalen Datenbank-Management-Systeme (RDBMS) gesetzt. Die Claims hatten die drei großen Anbieter Oracle, IBM und Microsoft unter sich aufgeteilt. Doch seit einiger Zeit rumort es. Im Zuge von Big Data stoßen die klassischen Systeme an ihre Grenzen. Diskussionen werden lauter, wie die Zukunft der Datenbanken aussehen könnte. Techniken wie NoSQL, In-Memory und Hadoop finden mehr Aufmerksamkeit.

SQL or NoSQL

Gerade mit der wachsenden Flut wenig strukturierter Daten, die sich nur schwer in das Raster einer relationalen Datenbank pressen lassen, wächst das Interesse an NoSQL-Systemen. Das Kürzel steht für "Not only SQL", ist also primär nicht als Ersatz für relationale Systeme gedacht, sondern eher als Ergänzung. Während herkömmliche Datenbanken auf Tabellen und Relationen aufbauen, können in NoSQL-Datenbanken verschiedene Datenmodelle zum Einsatz kommen. Das heißt jedoch auch, dass NoSQL nicht gleich NoSQL ist. Die unterschiedlichen Varianten haben Stärken und Schwächen, es gilt also genau zu prüfen, ob das individuelle Anwendungsszenario auf die jeweilige NoSQL-DB passt.

Knoten für Knoten

Die Architektur setzt meist auf viele zusammengeschaltete Standard-Server. Skaliert wird einfach dadurch, dass weitere Rechenknoten hinzugefügt werden. Prominentes Beispiel dafür ist Hadoop. Das Framework besteht im Wesentlichen aus zwei Teilen: Das Hadoop Distributed File System (HDFS) verteilt die Daten auf die verschiedenen Knoten. Dort werden die Daten mit Hilfe des von Google entwickelten MapReduce-Algorithmus verarbeitet. Die Grundidee dahinter: Rechenaufgaben in viele kleine Teilaufgaben zu zerlegen und im Cluster zu verteilen.

Diese Parallelisierung und die Tatsache, dass die Daten an ihrem Ablageort verarbeitet werden, sollen dafür sorgen, dass Ergebnisse deutlich schneller vorliegen. Hadoop scheint sich derzeit mehr und mehr in der Datenbankbranche etablieren zu können. Anbieter wie Cloudera und Intel bauen eigene Distributionen des Open-Source-Stacks, indem sie das Framework mit zusätzlichen Tools ergänzen. Zudem bieten die großen Datenbankanbieter wie Oracle, IBM und Microsoft mittlerweile Konnektoren an, um ihre Systeme mit Hadoop zu verknüpfen.

Zur Startseite