Gastkommentar

Hürden bei der Integration von Big Data

15.11.2012
Die Integration unstrukturierter und semi-strukturierter Daten könnte Unternehmen neue Erkenntnisse liefern. Allerdings sind dabei auch kritische Punkte zu berücksichtigen.
Wenn schon die sehr statischen Stammdatensätze schlecht gepflegt sind, brauchen einen qualitativ minderwertige Reports aus dem BI-System nicht verwundern.
Wenn schon die sehr statischen Stammdatensätze schlecht gepflegt sind, brauchen einen qualitativ minderwertige Reports aus dem BI-System nicht verwundern.
Foto: Gerd Altmann / pixelio.de

Die Integration unstrukturierter und semi-strukturierter Daten könnte Unternehmen neue Erkenntnisse liefern. Allerdings sind dabei auch kritische Punkte zu berücksichtigen.
Von Achim Heisler (Geschäftsführer des Düsseldorfer Systemhauses A-H-S)
Die Großen der Storage-Branche werden seit einiger Zeit nicht müde, Big Data zu propagieren. Wie im Beitrag der ChannelPartner dargestellt, könnten sich mit der Integration dieser Art der Daten neue Erkenntnisse für die Firmen ergeben. Aber an einigen Stellen wird in diesem Beitrag auch auf die Problemfelder hingewiesen, die sich mit der Verarbeitung dieser Daten ergeben.
Genau diese kritischen Punkte will ich nun speziell im Hinblick auf KMU-Kunden etwas näher beleuchten - was nicht heißen soll, dass Enterprise-Unternehmen nicht von den Problemen betroffen sind. Diese können aber durch den puren Einsatz monetärer und personeller Mittel die Problemfelder leichter "erschlagen".

Datenqualität

Wer sich mit Datenbanken/Datenanalyse in welcher Form auch immer beschäftigt, findet schnell heraus, dass ein englischer Begriff das Hauptproblem sehr treffend beschreibt: "Shit in, Shit out". Jeder von uns, der z.B. von seinen Distributoren immer drei Einladungen zum gleichen Event bekommt, ahnt, worauf ich hinaus will.

Wenn schon die sehr statischen Stammdatensätze schlecht gepflegt sind, brauchen einen qualitativ minderwertige Reports aus dem BI-System nicht verwundern. Und in diesem Fall haben wir es mit "harten" Daten zu tun.

Was können wir an Ergebnisqualität erwarten, wenn wir nun "weiche" Daten aus z.B. Sozialen Netzwerken mit einfließen lassen sollen? Auch die Anforderungen an die Datenfilterung/-zuordnung über die ETL-Prozesse (Extract, Transform, Load) werden immens steigen. Denn bei den unstrukturierten "Big Datas" gibt es keine fixen Zuordnungen und Datenfelder, die ausgefüllt werden. Suchfunktionen, die Kontext-sensitiv agieren, wären hier nötig um eine sinnvolle Grunddatenmenge zu erstellen.

Datenbeschaffung

Ein zentraler Punkt bei Big Data ist das Einbinden unstrukturierter Daten. Diese kommen laut EMC und Co. aus dem Internet (soziale Netzwerke, Suchmaschinen, Geodaten).

Von der Grundidee richtig, möchte ich aber folgendes zu bedenken geben: Mit den Daten, die als Grundlage für meine Big-Data-Welt herhalten sollen, möchten die Datenlieferanten ihr Geld verdienen. Wie hoch ist also die Wahrscheinlichkeit, dass ich diese Daten einfach erhalte?

Wenn eines Tages die automatischen Crawler der Big-Data-Engines durch mein soziales Netzwerk marodieren, werde ich dies nicht so einfach hinnehmen. Somit sollten wohl auch diese Daten mit einem Preis zu versehen sein. Und ob sich dann der Aufwand noch rechnet, sollte genau überprüft werden.

Beispiele kein wirkliches Big Data

Ich habe mir die im CP-Beitrag angeführten Beispiele einmal auf ihre "Big-Data-Haftigkeit" angeschaut, und komme nicht zu dem Schluss, dass es sich wirklich um solche handelt. Bei dem Sport-Scheck Beispiel hat man das Datenmodell um eine oder mehrere Dimensionen erweitert und daraus neue Erkenntnisse gewonnen. Die zugrunde gelegten Daten waren aber im Grunde harte Daten aus den Weblogs und somit auch im kontrollierten Zugriff. (Dies soll die Leistung dahinter nicht schmälern.)

Und bei der tde hat man das Problem der Enterprisesearch einfach mit genügend RAM-Riegeln erschlage. Ich gebe zu SAP HANA als massive RAM-Riegelsammlung zu bezeichnen, greift sicher zu kurz und wird der Lösung nicht gerecht, löst hier aber das Kernproblem. Dass die Suche nun fast in Echtzeit erfolgt, würde ich unter diesen Prämissen als erwartetes Ergebnis bezeichnen.

Als Beispiel würde ich eine Firma erwarten, die in der weiten Welt der Unstrukturiertheit ein Muster gefunden hat, dies in ihre BI-Cubes integriert und daraus neue Erkenntnisse generiert - beispielsweise eine Versicherung, die erkannt hat, dass Versicherungsnehmer, die ihre getunten Fahrzeuge auf Facebook präsentieren, eine um 36 Prozent höhere Schadensquote haben.

Bei allem Hype um Big Data darf man nie vergessen, dass am Anfang und am Ende der Kette ein Berater/Manager stehen muss, der bereit ist, neue Sichtweisen zuzulassen und weit über den Tellerrand zu schauen.

Was halten Sie vom aktuellen Hype um Big Data? Diskutieren Sie mit im ChannelPartner-Forum.

(rb)

Zur Startseite