Technologien für große Datenmengen

Big Data im Griff

20.03.2012 von Klaus Manhart

Erzeugt von sozialen Netzen, Mobilgeräten, Sensoren und anderen Instrumentarien bricht derzeit eine Lawine an Daten auf die Unternehmen ein. Für die meisten wird die Datenflut, neudeutsch als "Big Data" bezeichnet, zunehmend zum Problem. Um möglichst großen Nutzen aus den explodierenden Informationsmengen zu ziehen, reicht die bloße Vergrößerung von IT-Parametern - mehr Speicher, bessere Server etc. - bei weitem nicht aus. Stattdessen muss die gesamte IT-Infrastruktur hinterfragt und an mehreren Stellschrauben gedreht werden: Von der Storage- und Netzwerktechnik über die Datenbanksoftware bis hin zum richtigen Business-Intelligence-Instrumentarium.

1,8 Zettabyte Daten wurden letztes Jahr weltweit erzeugt - die Grafik veranschaulicht das.
Foto: IDC

In den nächsten Jahren explodieren die Datenmengen förmlich. Laut den Marktforschern von IDC durchbrachen digitale Informationen im letzten Jahr erstmals die Zettabyte-Barriere - das ist eine Billion Gigabyte an Daten. In diesem Jahr soll das "digitale Universum" auf 1,8 Zettabyte anschwellen. Damit ist die Informationsmenge in den letzten fünf Jahren laut IDC um den Faktor fünf gewachsen.

Dass die Datenmengen derart hochschnellen, liegt an der allumfassenden Digitalisierung des Lebens - und daran, dass ständig und überall hochvolumige Datenmengen produziert werden. Vor allem von Maschinen und Rechnern: Eine moderne Jet-Maschine generiert heute beispielsweise in 30 Minuten bis zu 10 Terabyte an Daten. Bei 25.000 Flügen pro Tag entstehen durch eine solche Datenquelle Petabytes an Daten. Oder der Automobilbereich: Autohersteller gehen heute immer öfter dazu über, Crash-Tests auf Hochleistungsrechnern zu simulieren. Die dabei anfallenden Datenmengen sind gigantisch.

Einen erklecklichen Anteil an der Datenexplosion haben das Internet und die für viele Unternehmen so attraktiven sozialen Medien wie Facebook, Twitter und Co. Bei 140 Zeichen pro Tweet und bei der Geschwindigkeit, in der die Kurzmitteilungen abgesetzt werden, sorgt alleine Twitter pro Tag für mindestens acht Terabyte an Daten.

In solchen Daten stecken - so die Vorstellung vieler Unternehmen - wertvolle Schätze, die man nur heben muss. Beispielsweise wollen Unternehmen Stimmungen oder Produkt- und Firmennamen in Social Networks aufspüren. Oder durch Auswertung von Kundenkommentaren Vorschläge für die Verbesserung von Produkten gewinnen.

Big Data ist wichtigster IT-Trend

Laut Experton Group ist Big Data kein neuer Hype, sondern eine neue Dimension.
Foto: Experton Group

"Big Data ist derzeit neben Cloud Computing einer der wichtigsten Trends in der IT", meint Bitkom-Vizepräsident Volker Smid. Während sich bisher nur Banken, Finanzdienstleister und ausgewählte Großkonzerne - typische Anwender von Data-Warehousing und Business Intelligence - mit ihren Unternehmensdaten beschäftigt haben, kommen nun laut Experton Group zunehmend auch Handelsunternehmen, Versorgungsunternehmen, Unternehmen in den Branchen Life-Sciences und Medizin sowie in vielen anderen Märkten zu der Erkenntnis, dass Daten zum Grundkapital gehören.

Unternehmen, die Big Data für Business-Zwecke nutzen möchten, müssen mittelfristig ihre gesamte IT-Infrastruktur modifizieren. Dabei spielt vor allem die Erkenntnis eine Rolle, dass bisherige Verfahren und Technologien nicht ausreichen werden, um mit dem Datenwachstum Schritt zu halten.

Eine reine Vergrößerung von IT-Parametern - mehr Speicher, bessere Server etc. - reicht also nicht aus. Laut Experton Group ist Big Data vielmehr als "neue Dimension" zu verstehen, die über bekannte Methoden und Prozesse der Datenanalyse hinausgeht.

Vor allem vier Entwicklungen erwarten die Analysten in den nächsten Jahren:

Ein steigendes Datenvolumen ohne bislang erkennbare Grenzen;
eine zunehmende Heterogenität der Datenquellen - wie Sensoren, Mobilgeräte oder Social Networks;
die Erwartung und Notwendigkeit einer rollenspezifischen Auswertung der Daten - möglichst ad hoc und in Echtzeit;
die Bedienung einer zunehmenden Zahl von Nutzern von Datenanalysen

Der Aufwand, der mit Big Data verbunden ist, zahlt sich nach Expertenmeinung aus. Wer mit den Datenbergen richtig umgeht, kann davon stark profitieren, haben die Berater von McKinsey herausgefunden. Werden Big Data richtig und zeitnah analysiert, können Handelsunternehmen ihre Marge um bis zu 60 Prozent verbessern, europäische Behörden sparen durch effizientere Prozesse 250 Millionen Euro pro Jahr ein, so die Consultants.

Flaschenhälse Storage und Netz

Fujitsu's ETERNUS DX-Systeme etwa bieten die Möglichkeit, von einem Entry- über ein Midrange- bis hin zu einem Highend-System zu wachsen.
Foto: Fujitsu

Technisch muss beim Umgang mit Big Data an verschiedenen Stellschrauben gedreht werden. Da ist einmal die Storage-Technik. Mit den rasant wachsenden Datenbergen droht die herkömmliche, statisch ausgelegte Festplattentechnik zu einem Flaschenhals zu werden.

Storage-Hersteller arbeiten deshalb gerade daran, die Performance mit Flash-basierenden SSDs zu pushen. Storage-Systeme sollten im Zuge von Big Data zudem dynamisch und flexibel ausbaubar sein. Fujitsus ETERNUS DX-Systeme etwa bieten mit der Funktion "Data in Place" die Möglichkeit, von einem Entry- über ein Midrange- bis hin zu einem Highend-System zu wachsen.

Darüber hinaus sind in nächster Zeit leistungsfähigere Storage-Techniken zu erwarten, die extrem hohe Speicherdichten ohne Performance-Einbußen erreichen. Auch die zunehmende Nutzung globaler, parallel und verteilt arbeitender File-Systeme, die riesige Datenmengen verwalten können, dürfte zunehmen. Derzeit macht etwa die Open-Source-Variante Lustre von sich reden. Zukunftsfähige Speichersysteme, die sich im Cloud- oder Big-Data-Bereich bewähren sollen, unterstützen am besten mehrere dieser Lösungen.

Ein weiterer Flaschenhals ist die Netztechnik. In klassischen Architekturen werden die Daten von den Plattensystemen zur CPU transportiert, dort verarbeitet und die Resultate wieder zurück in den Storage geschrieben. Dieses Verfahren stößt bei Massendaten bald an seine Grenzen. "Bei der Verarbeitung von Big Data ist zwischen den Compute-Servern und den Storage-Systemen ein Bottleneck zu erwarten", heißt es in einem Experton Statement. Besser geeignet, so Forrester-Analystin Vanessa Alvarez, sind dedizierte Appliances, die Storage, Computing- und Netzressourcen mit Analytics-Funktionen in einem einzigen Gerät kombinieren.

Datenbanken für Big Data

Softwareseitig stoßen bei Big Data vor allem die herkömmlichen Datenbanken an ihre Grenzen. Sie können schlecht mit unstrukturierten Daten in Nicht-SQL-Formaten wie Bildern, Sounds oder E-Mail-Anhängen umgehen - also dem Löwenanteil bei hochvolumigen Datenmengen. Übliche relationale Datenbanksysteme und Analysetechniken kommen mit den unterschiedlichen Datentypen nicht zurecht.

Für unstrukturierte Daten gibt es Techniken wie NoSQL-Datenbanken. NoSQL ist der Sammelbegriff für nicht-relationale Datenbanksysteme und zugleich der Name einer Bewegung weg von den relationalen Datenbanken hin zu neuen beziehungsweise vergessenen Datenbankmodellen. Diese Datenbanksysteme lassen sich ergänzend zu den klassischen Datenbanken einsetzen. Sie können dann wieder in strukturierte Datensysteme überführt und als Kennzahlen beispielsweise in ein Datawarehouse eingespeichert werden.

NoSQL-Datenbanken wie die Opensource-Lösung Hadoop bieten ein hochskalierbares Filesystem, um unterschiedlich strukturierte Daten zu speichern. Außerdem verfügen sie über eine Entwicklungsumgebung, um Programme für eine parallelisierte Datenverarbeitung zu erstellen.

Echtzeitanalyse mit In Memory

Neben NoSQL-Lösungen sind eine Reihe weiterer Techniken verfügbar, die den Umgang mit großen Datenmengen erleichtern. Dazu gehören beispielsweise spaltenorientierte Datenbanken und In-Memory-Techniken, die Abfragen gravierend beschleunigen können. Mit HANA bietet SAP beispielsweise eine auf In-Memory-Technik basierende BI-Applikation.

HANA wurde Mitte 2010 von ihren geistigen Vätern Hasso Plattner und Technik-Chef Vishal Sikka als Hochleistungsplattform für die analytische Bearbeitung großer Datenmengen vorgestellt. Ihren Geschwindigkeitsvorsprung gegenüber herkömmlichen Datenbank-Techniken gewinnt die In-Memory-Lösung dadurch, dass Daten im Arbeitsspeicher statt auf externen Speichermedien abgelegt werden.

Fujitsu bietet für SAP HANA eine validierte und vorinstallierte Plattformkonfiguration an. Die Multiknoten-Umgebung aus PRIMERGY RX600 und RX900 Rack Servern, ETERNUS Storage-Systemen und Netzwerklösungen beschleunigt die Echtzeit-Analyse hoher Transaktionsdatenmengen mit SAP HANA erheblich - laut Fujitsu um den Faktor acht.

Dazu wird die Datenanalyse direkt im Hauptspeicher des Servers durchgeführt - das heißt, die Daten müssen nicht zuerst auf plattenbasierte Systeme heruntergeladen werden. Durch diese weiter beschleunigte Echtzeit-Analyse sollen Unternehmen neue Trends und Muster noch schneller aufspüren und umgehend auf sich verändernde Marktbedingungen reagieren können.

Intelligente BI-Systeme sind gefragt

Big Data beschäftigt derzeit viele Unternehmen, aber eine Big-Data-Superlösung wird es für Experton-Group-Analyst Andreas Zilch nicht geben.
Foto: Joachim Wendler

SAP HANA ist ein Beispiel für das, was künftig bei Big Data ein zentraler Punkt ist: Aus der Unmenge von unstrukturierten Daten den größtmöglichen Nutzen für das eigene Business generieren. Mit komplexen Abfragemarathons, umständlichen Analyseverfahren und altbackenen Reports sind traditionelle BI-Systeme den Datenmengen nicht mehr gewachsen, sie stoßen an ihre Grenzen.

Gefragt sind heute Analysen großer Datenmengen, die wie in HANA effizient und in Echtzeit auswertbar sind und aussagekräftige Prognosen als valide Grundlage für Entscheidungen liefern. Diese Predictive Analysis steht laut einer Lünendonk-Umfrage unter BI-Herstellern ganz oben auf der To-Do-Liste der Softwarehersteller.

Hier ist vieles derzeit noch in der Entwicklung. Erwartet werden in nächster Zeit massiv-parallele Systeme, die durch paralleles Data Crunching riesige Daten in kurzer Zeit analysieren können. Hohen praktischen Nutzen haben auch neuronale Netzte, die mit statistischen Methoden kombiniert werden und als lernende Systeme nur die relevanten Informationen aus dem Datenrauschen herausfiltern.

Trotz aller aktueller Bemühungen und Entwicklungen: Ein einziges Datenreservoir, das das Big-Data-Problem zentral und unkompliziert löst, wird es auch in Zukunft nicht geben. Nach Ansicht von Experton-Group-Analyst Andreas Zilch werden immer nur Teillösungen möglich sein. "Es wird nicht die Big-Data-Superlösung geben."
(CIO / rb)