Eine Frage der Technik

Big Data erfolgreich beherrschen

26.07.2013

Von

Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.

Alle Artikel des Autors

Email: Connect:

Wer Big Data erfolgreich beherrschen will, muss sich aus verschiedenen Werkzeugkästen den richtigen Tool-Mix zusammenstellen. Die eine Lösung, die alle Probleme behebt, gibt es nicht.

Es geht nicht darum, BI-Suiten und Data Warehouses gegen neue Big-Data-Tools auszutauschen, sondern die neuen Techniken sinnvoll in bestehende Systeme zu integrieren.
Foto: Fotolia / Dreaming Andy

von Martin Bayer
Dass die Datenmengen wachsen und auch in Zukunft wachsen werden, ist eine Binsenweisheit und dürfte sich mittlerweile in jedem Unternehmen herumgesprochen haben. Die Beherrschung der Datenflut allein mit Big Data gleichzusetzen greift jedoch zu kurz. Das Thema hat viele unterschiedliche Facetten. Genau das macht es für Anwenderunternehmen alles andere als banal und einfach, das Big-Data-Phänomen anzugehen. Folgende Aspekte spielen zusammen:

Neben der puren Menge an Daten wächst auch die Zahl der Datenquellen, die die Unternehmen im Blick behalten müssen. Es sind nicht mehr nur die klassischen transaktionalen Systeme, aus denen die Daten in die Firmen sprudeln. Vielmehr gilt es heute auch Maschinendaten beziehungsweise Informationen aus sozialen Netzwerken richtig zu kanalisieren.
Mit der Vielzahl der Datenquellen wächst auch die Datenvielfalt. Zu den strukturierten Transaktionsdaten, die sich klassisch in relationalen Datenbanksystemen fassen lassen, kommen wenig beziehungsweise kaum strukturierte Daten hinzu wie beispielsweise Texte, Bilder und Videos. Um diese Datentypen sinnvoll zu analysieren und zu verwalten und bearbeiten, sind neue Wege zu gehen.
Zugleich müssen Daten und Informationen immer mehr Nutzern zugänglich gemacht werden. Das betrifft nicht nur die Mitarbeiter im eigenen Unternehmen, sondern die gesamte Wertschöpfungskette - vom Lieferanten bis hin zu den Kunden. Es wächst also nicht nur die Zahl der Datenquellen, sondern auch die der Datenkonsumenten.
Unterschiedliche Datenquellen, verschiedene Datentypen sowie die immer weiter reichende Verteilung von Informationen stellen neue Herausforderungen an den Datenschutz. Darüber hinaus bergen die komplexer werdenden Dateninfrastrukturen die Gefahr von Fehlern und Manipulationen. Daher nimmt die Bedeutung von Datenintegrität und Datenqualität weiter zu.

Doch damit hört die Komplexität rund um Big Data noch nicht auf. Genauso vielschichtig und undurchsichtig wie die durch die Datenflut verursachten Herausforderungen präsentiert sich das Angebots- beziehungsweise Lösungspanorama. Mit der Verbreitung des Big-Data-Begriffs habe sich eine unübersichtliche Anbieterlandschaft entwickelt, sagen die Analysten der Experton Group. Komplexe Pakete tauchen ebenso wie Einzelbausteine als Big-Data-Lösungen am Markt auf. Hinzu kommen Anbieter, die vorhandene Produkte Dritter mit ihren eigenen Lösungen kombinierten. Hier den Überblick zu behalten fällt zunehmend schwer.

Erfahrungen beim Einsatz von Big-Data-Techniken
Es ist nicht so, dass noch niemand Big-Data-Projekte angegangen wäre. Es gibt sogar einige Beispiele von Unternehmen, die solche Projekte mit Erfolg absolviert haben.
Deutsche Welle
„Essenziell auch für Big-Data-Projekte sind eine klare Aufgabenstellung, Fokus auf die Lösung und die Nutzer dieser Lösung (weniger auf neueste Informationstechnik) und nicht zuletzt auch ein Gespür für Usability und Funktionsumfang eines Reporting-/Analyse-Dashboards. Weniger ist hier meistens mehr.“
DeutschlandCard GmbH
„Nur ein minutiöser Migrationsplan mit mindestens einer kompletten Generalprobe inklusive Fallback-Test sichert die Betriebssicherheit einer solch komplexen Applikation mit ihren zahlreichen Schnittstellen zu externen Partnern.“
Schukat Electronic
„Big Data Analytics ist nicht nur eine Herausforderung für Großunternehmen. Auch der Mittelstand muss sich immer mehr mit diesem Thema beschäftigen, um im internationalen Wettbewerb erfolgreich zu sein. Das Anwendungsbeispiel verdeutlicht den Nutzen im Vertrieb. Aber beispielsweise auch in der Produktion mit Sensordaten etc. gibt es vielfältige Szenarien in den Fachabteilungen.“
Otto Versand
„Wir haben erkannt, dass für unsere Anforderungen ein selbstlernendes System notwendig ist, das sich stetig ändernde Einflussfaktoren wie Ansprache und Artikel- Ranking oder im Printbereich Seitenanteil und Katalogausstoßmenge berücksichtigt. Damit steigt unsere Prognosequalität kontinuierlich, und die prognostizierten Absatzmengen werden immer präziser. Außerdem können wir uns frühzeitig auf künftige Entwicklungen einstellen.“
Macy‘s
„Der Business-Nutzen zeigt sich erst, wenn Prozesse, die aufgrund fehlender Möglichkeiten bewusst eingeschränkt waren, verbessert werden. In diesem Fall ist es die früher gar nicht mögliche, sehr viel häufigere Preisoptimierung im Gesamtsortiment. Auch können nun sehr viel aktuellere Abverkaufszahlen mit in die Analyse einbezogen werden.“
Telecom Italia
„Bestehende Segmentierungsmodelle können um rollenbasierte Modelle erweitert werden, indem der Einfluss auf das soziale Umfeld durch Leader, Follower etc. verdeutlicht wird. Leader gelten als Kommunikations-Hubs und haben einen starken Entscheidungseinfluss auf ihr Umfeld. Marketing- Strategien und Ansätze zur Kundenakquise können durch SNA optimiert werden. Eigenschaften der Communities, Wechsel zwischen den Communities und die Identifikation von Teilnehmern in Schnittstellenbereichen ermöglichen Rückschlüsse auf neue Kundensegmente und Zielgruppen.“
Netapp
„Das auf Apache Hadoop basierende System arbeitet sicher, zuverlässig und höchst performant. Die Java-basierende Plattform verwendet offene Technologien und ist somit flexibel erweiterbar. Kunden vermeiden so bei niedrigen Betriebskosten (TCO) ein Vendor-Lock-in.“
Semikron GmbH
„Big-Data-Projekte sind komplex. Oft sind Unternehmen nicht in der Lage, ihre tatsächlichen Datenbestände für die geplanten Projektvorhaben hinsichtlich ihrer Volumenentwicklung abzuschätzen. Bei Semikron hat sich beispielsweise gezeigt, dass sie von einem viel größeren Datenvolumen ausgegangen sind, als es tatsächlich der Fall war. Bei dem durchgeführten Proof of Concept stellte sich heraus, dass zwar die Vielzahl an Daten, die in den typischen Produktionsprozessen anfallen, sehr hoch ist, nicht aber das Datenvolumen.“
Vaillant Group
„Allein die Umstellung der Systemlandschaft auf innovative Big-Data-Architekturen aus technischer IT-Perspektive ergibt belastbare Business Cases zur Reduzierung des TCO. Noch deutlich übertroffen werden für Fachabteilungen die Resultate aus dem Mehrwert der neuen Lösungen und Möglichkeiten in Verbindung mit der drastischen Reduzierung der Bearbeitungszeiten durch die Anwender.“
TomTom
„Um die kompletten Anforderungen des Kunden in Big- Data-Projekten erfüllen zu können, ist übergreifendes Know-how erforderlich, das die Konfiguration von Hard- und Software, das Tuning und technisches Consulting umfasst.“
United Overseas Bank (Singapur)
„Entscheidend ist das Denken in Geschäftsprozessen. Wird nur ein Teil beschleunigt, der Gesamtprozess bleibt aber unangetastet, so lässt sich der Vorteil nicht realisieren. Sowohl das Daten-Management im Vorfeld als auch die Echtzeit-Nutzung der Echtzeit-Ergebnisse sind bestimmende Faktoren für den erfolgreichen Einsatz dieser neuen Lösung.“
Xing
„In kürzester Zeit stellten sich positive Effekte bei Xing ein, vor allem eine deutliche Verbesserung bei den Analysen. Prozesse können durch die neue Lösung schneller entwickelt und Ad-hoc Anfragen zügiger beantwortet werden. Es sind keine langen Workarounds mehr notwendig, alle BI-Mitarbeiter nutzen das neue System effektiv. Die Komplexität und die Wartung des Systems wurden merklich verringert. Bei der Arbeit mit der neuen Lösung konnte eine steile Lernkurve seitens der Anwender verzeichnet werden, auch wird spürbar produktiver gearbeitet.“
In eigener Sache:
Mit diesen Anwenderzitaten wollen wir Ihnen Lust machen auf das nächste Heft in unserer vierteiligen Quadriga-Reihe. Titelthema ist Big Data. Anwenderbeispiele, visionäre Konzepte und Meinungen runden das Thema ab. Auch auf die Megatrends Mobility, Cloud Computing und Social Media werden wir wieder eingehen. Erscheinungstermin: 10. Juni 2013.

Daten für Windräder

Die Angelegenheit wird aus Sicht der Analysten auch dadurch komplizierter, dass viele Anbieter in ihrer Kommunikation auf theoretischen Anwendungsbeispielen aufbauten. Konkrete Referenzen sind in diesem noch jungen Markt eine Seltenheit. Dort, wo es sie gibt, sind sie meist sehr spezifisch und kaum auf andere Unternehmen zu übertragen. IBMs Big-Data-Vorzeigeprojekt beim dänischen Windkraftanlagenhersteller Vestas, der für die Wahl des richtigen Standorts bis zu 160 verschiedene Faktoren und damit Daten im Petabyte-Bereich untersucht, ist so ein Beispiel.

Dasselbe gilt für SAPs "Oncolyzer", der in der Berliner Charité auf Basis der In-Memory-Datenbank HANA in kürzester Zeit verschiedenste medizinische Daten auswerten und so eine individuelle Krebstherapie ermöglichen soll. Für andere Unternehmen bleibt es angesichts solcher Individualfälle schwierig, die richtige Antwort für ihr eigenes Big-Data-Problem zu finden.

The Big Five

Die Analysten haben fünf verschiedene Themengebiete definiert, die Anwender bei ihrer Suche im Blick behalten sollten:

Big-Data-Infrastruktur: Datenspeicherlösungen, Verknüpfung von Daten und Datenbanken, Appliances, Computerhardware.
Big-Data-Aggregation:Zusammenführen von Daten aus unterschiedlichen Quellen, Integration, Data-Security, -Integrity und -Quality
Big-Data-Analytics: Business-Intelligence-Lösungen, Data Warehouse, Advanced Analytics
Big-Data-Syndizierung: Visualisierung und Ausspielen von Ergebnissen an viele Benutzer, Konzepte wie Linked Open Data.
Big-Data-Consulting und -Services: Consulting und -Services

Die Herausforderungen in Sachen Technik beginnen mit der Infrastruktur. Drei Viertel aller IT-Entscheider sehen Handlungsbedarf, ihre Storage- und Datenbanksysteme anzupacken. Auswirkungen auf die Analysen und Reporting hat dagegen erst die Hälfte der Befragten ausgemacht.

Der DB-Markt rumort

Gefordert auf der Infrastrukturseite sind unter anderem die Hersteller von Datenbanken. Lange Zeit schienen die Verhältnisse in diesem Markt klar. In den Anwenderunternehmen waren die relationalen Datenbank-Management-Systeme (RDBMS) gesetzt. Die Claims hatten die drei großen Anbieter Oracle, IBM und Microsoft unter sich aufgeteilt. Doch seit einiger Zeit rumort es. Im Zuge von Big Data stoßen die klassischen Systeme an ihre Grenzen. Diskussionen werden lauter, wie die Zukunft der Datenbanken aussehen könnte. Techniken wie NoSQL, In-Memory und Hadoop finden mehr Aufmerksamkeit.

SQL or NoSQL

Gerade mit der wachsenden Flut wenig strukturierter Daten, die sich nur schwer in das Raster einer relationalen Datenbank pressen lassen, wächst das Interesse an NoSQL-Systemen. Das Kürzel steht für "Not only SQL", ist also primär nicht als Ersatz für relationale Systeme gedacht, sondern eher als Ergänzung. Während herkömmliche Datenbanken auf Tabellen und Relationen aufbauen, können in NoSQL-Datenbanken verschiedene Datenmodelle zum Einsatz kommen. Das heißt jedoch auch, dass NoSQL nicht gleich NoSQL ist. Die unterschiedlichen Varianten haben Stärken und Schwächen, es gilt also genau zu prüfen, ob das individuelle Anwendungsszenario auf die jeweilige NoSQL-DB passt.

Knoten für Knoten

Die Architektur setzt meist auf viele zusammengeschaltete Standard-Server. Skaliert wird einfach dadurch, dass weitere Rechenknoten hinzugefügt werden. Prominentes Beispiel dafür ist Hadoop. Das Framework besteht im Wesentlichen aus zwei Teilen: Das Hadoop Distributed File System (HDFS) verteilt die Daten auf die verschiedenen Knoten. Dort werden die Daten mit Hilfe des von Google entwickelten MapReduce-Algorithmus verarbeitet. Die Grundidee dahinter: Rechenaufgaben in viele kleine Teilaufgaben zu zerlegen und im Cluster zu verteilen.

Diese Parallelisierung und die Tatsache, dass die Daten an ihrem Ablageort verarbeitet werden, sollen dafür sorgen, dass Ergebnisse deutlich schneller vorliegen. Hadoop scheint sich derzeit mehr und mehr in der Datenbankbranche etablieren zu können. Anbieter wie Cloudera und Intel bauen eigene Distributionen des Open-Source-Stacks, indem sie das Framework mit zusätzlichen Tools ergänzen. Zudem bieten die großen Datenbankanbieter wie Oracle, IBM und Microsoft mittlerweile Konnektoren an, um ihre Systeme mit Hadoop zu verknüpfen.

Data Center

Daten für Windräder

The Big Five

Der DB-Markt rumort

SQL or NoSQL

Knoten für Knoten

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor