Gastkommentar

Hürden bei der Integration von Big Data

15.11.2012

Die Integration unstrukturierter und semi-strukturierter Daten könnte Unternehmen neue Erkenntnisse liefern. Allerdings sind dabei auch kritische Punkte zu berücksichtigen.

Wenn schon die sehr statischen Stammdatensätze schlecht gepflegt sind, brauchen einen qualitativ minderwertige Reports aus dem BI-System nicht verwundern.
Foto: Gerd Altmann / pixelio.de

Die Integration unstrukturierter und semi-strukturierter Daten könnte Unternehmen neue Erkenntnisse liefern. Allerdings sind dabei auch kritische Punkte zu berücksichtigen.
Von Achim Heisler (Geschäftsführer des Düsseldorfer Systemhauses A-H-S)
Die Großen der Storage-Branche werden seit einiger Zeit nicht müde, Big Data zu propagieren. Wie im Beitrag der ChannelPartner dargestellt, könnten sich mit der Integration dieser Art der Daten neue Erkenntnisse für die Firmen ergeben. Aber an einigen Stellen wird in diesem Beitrag auch auf die Problemfelder hingewiesen, die sich mit der Verarbeitung dieser Daten ergeben.
Genau diese kritischen Punkte will ich nun speziell im Hinblick auf KMU-Kunden etwas näher beleuchten - was nicht heißen soll, dass Enterprise-Unternehmen nicht von den Problemen betroffen sind. Diese können aber durch den puren Einsatz monetärer und personeller Mittel die Problemfelder leichter "erschlagen".

Datenqualität

Wer sich mit Datenbanken/Datenanalyse in welcher Form auch immer beschäftigt, findet schnell heraus, dass ein englischer Begriff das Hauptproblem sehr treffend beschreibt: "Shit in, Shit out". Jeder von uns, der z.B. von seinen Distributoren immer drei Einladungen zum gleichen Event bekommt, ahnt, worauf ich hinaus will.

Wenn schon die sehr statischen Stammdatensätze schlecht gepflegt sind, brauchen einen qualitativ minderwertige Reports aus dem BI-System nicht verwundern. Und in diesem Fall haben wir es mit "harten" Daten zu tun.

Was können wir an Ergebnisqualität erwarten, wenn wir nun "weiche" Daten aus z.B. Sozialen Netzwerken mit einfließen lassen sollen? Auch die Anforderungen an die Datenfilterung/-zuordnung über die ETL-Prozesse (Extract, Transform, Load) werden immens steigen. Denn bei den unstrukturierten "Big Datas" gibt es keine fixen Zuordnungen und Datenfelder, die ausgefüllt werden. Suchfunktionen, die Kontext-sensitiv agieren, wären hier nötig um eine sinnvolle Grunddatenmenge zu erstellen.

Die vier Herausforderungen von Big Data
Das Thema Big Data befasst sich eigentlich mit vier Herausforderungen:
Die schiere Menge:
Das für Unternehmen relevante Datenvolumen steigt weiter drastisch an. Heute schon werden Datenmengen im Terabyte-Bereich analysiert, in Kürze dürften Petabyte und Exabyte auf der Agenda stehen.
Der Zeitdruck:
Analysen der gewaltigen Datenberge sollten idealerweise in Echtzeit zur Verfügung stehen. Denn die Unternehmen stehen vor der Aufgabe, dass sie zeitnah auf Marktänderungen reagieren müssen.
Die mangelnde Struktur:
Die Analysen müssen immer häufig Datenquellen mit kaum strukturierten Beständen berücksichtigen. Das heißt: die Komplexität der Datenanalysen steigt. Neben den bekannten Datenquellen, etwa den vorhandenen ERP-Systemen, kommen neue hinzu. Dazu zählen Daten aus M-to-M-Applikationen, also beispielsweise Sensordaten, Daten aus On-Board-Systemen, RFID-Daten aus der Logistikkette, aber auch Daten aus Weblogs und Social-Media-Plattformen etc.
Die wachsende Anwenderzahl:
Die potenziellen internen und externen User werden immer mehr. Sie kommen beispielsweise über Self-Service-Portale, die im Web zugänglich sind.

Datenbeschaffung

Ein zentraler Punkt bei Big Data ist das Einbinden unstrukturierter Daten. Diese kommen laut EMC und Co. aus dem Internet (soziale Netzwerke, Suchmaschinen, Geodaten).

Von der Grundidee richtig, möchte ich aber folgendes zu bedenken geben: Mit den Daten, die als Grundlage für meine Big-Data-Welt herhalten sollen, möchten die Datenlieferanten ihr Geld verdienen. Wie hoch ist also die Wahrscheinlichkeit, dass ich diese Daten einfach erhalte?

Wenn eines Tages die automatischen Crawler der Big-Data-Engines durch mein soziales Netzwerk marodieren, werde ich dies nicht so einfach hinnehmen. Somit sollten wohl auch diese Daten mit einem Preis zu versehen sein. Und ob sich dann der Aufwand noch rechnet, sollte genau überprüft werden.

Beispiele kein wirkliches Big Data

Ich habe mir die im CP-Beitrag angeführten Beispiele einmal auf ihre "Big-Data-Haftigkeit" angeschaut, und komme nicht zu dem Schluss, dass es sich wirklich um solche handelt. Bei dem Sport-Scheck Beispiel hat man das Datenmodell um eine oder mehrere Dimensionen erweitert und daraus neue Erkenntnisse gewonnen. Die zugrunde gelegten Daten waren aber im Grunde harte Daten aus den Weblogs und somit auch im kontrollierten Zugriff. (Dies soll die Leistung dahinter nicht schmälern.)

Und bei der tde hat man das Problem der Enterprisesearch einfach mit genügend RAM-Riegeln erschlage. Ich gebe zu SAP HANA als massive RAM-Riegelsammlung zu bezeichnen, greift sicher zu kurz und wird der Lösung nicht gerecht, löst hier aber das Kernproblem. Dass die Suche nun fast in Echtzeit erfolgt, würde ich unter diesen Prämissen als erwartetes Ergebnis bezeichnen.

Als Beispiel würde ich eine Firma erwarten, die in der weiten Welt der Unstrukturiertheit ein Muster gefunden hat, dies in ihre BI-Cubes integriert und daraus neue Erkenntnisse generiert - beispielsweise eine Versicherung, die erkannt hat, dass Versicherungsnehmer, die ihre getunten Fahrzeuge auf Facebook präsentieren, eine um 36 Prozent höhere Schadensquote haben.

Bei allem Hype um Big Data darf man nie vergessen, dass am Anfang und am Ende der Kette ein Berater/Manager stehen muss, der bereit ist, neue Sichtweisen zuzulassen und weit über den Tellerrand zu schauen.

Was halten Sie vom aktuellen Hype um Big Data? Diskutieren Sie mit im ChannelPartner-Forum.

(rb)

Data Center

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor