Teradata Universe

Big-Data-Analyse ist Kunst und Wissenschaft

30.05.2013 von Karin Quack
Von den jüngsten IT-Schlagwörtern ist Big Data das am meisten missverstandene. Es handelt sich dabei weniger um ein Technik- als ein Management-Thema.
Erik Brynjolfsson, Director des MIT Center for Digital Business: „Daten liefern weitaus bessere Ergebnisse als das Hippo-Prinzip.“
Foto: Teradata

Von den jüngsten IT-Schlagwörtern ist Big Data das am meisten missverstandene. Es handelt sich dabei weniger um ein Technik- als ein Management-Thema.
von Karin Quack (Computerwoche)
Es gibt Leute, die Big Data als natürliche Weiterentwicklung der vorangegangenen Technologien verstehen, so Erik Brynjolfsson, Director des MIT Center for Digital Business. Andere hingegen sähen darin "eine fundamentale Revolution". Welcher Ansicht er selbst zuneigt, stellte Brynjolfsson sehr bald klar: Es handle sich hier um nichts weniger als die Überwindung existierender Machtstrukturen sowie einen völlig neuen Weg des Arbeitens und Entscheidens. Kurzum: Big Data sei eine Management-Revolution.

Jede wissenschaftliche Revolution beginne mit Messungen, erläuterte der MIT-Professor vor den in Kopenhagen versammelten Kunden des Data-Warehouse- und Analytics-Spezialisten Teradata. Dessen Name sei übrigens fast überholt, konstatierte Brynjolfsson: Heute seien Datenbanken mit Peta- oder sogar Exabytes (eine Zahl mit 18 Nullen) im Einsatz. Und die "Zetabyte-Ära" zeige sich am Horizont.

Hadoop als Datensammelstelle

Woher kommen nur all diese Daten? Einige stammen aus den konventionellen Anwendungen wie ERP- oder CRM-Systemen. Andere werden aus dem Web gesammelt; dazu gehören beispielsweise die Informationen aus sozialen Plattformen oder Google-Abfragen. Dann gibt es noch die Flut von Standort- und Bewegungsdaten, die via GPS von den Smartphones übermittelt werden. Und ein Großteil dessen, was Big Data ausmacht, zählt zum weiten Feld der Maschine-zu-Maschine-Kommunikation, beispielsweise Sensor- oder RFID-Daten.

Zumindest in den USA werden derartige Daten häufig in einem "Hadoop"-System gespeichert. Dabei handelt es sich um ein Open-Source-Projekt, das sich relativ gut dafür eignet, unstrukturierte Daten "hineinzukippen": Es arbeitet File- und Batch-orientiert, ist dadurch sehr performant und erlaubt schnelle Zugriffe, bietet aber kaum Anwendungskomfort und erfordert in den Unternehmen "ein Heer von Spezialisten", wie der deutsche Teradata-Geschäftsführer Andreas Geissler erläutert.

Auch aus diesem Grund ist Hadoop in Europa - im Gegensatz zu den USA - derzeit noch kein so großes Thema. Für diejenigen, die erste Gehversuche mit dem File-System unternehmen wollen, hat Teradata kürzlich zwei neue Tools vorgestellt. Sie verbinden Hadoop und das klassische SQL-orientierte Teradata-Warehouse beziehungsweise die Big-Data-Analytics-Software "Aster". Wie die drei Komponenten zusammenspielen, hat Teradata in der Architektur-Blaupase "Unified Data Architecture", kurz: UDA, zusammengefasst.

Abschied vom Hippo-Prinzip

So weit die Technik. Aber viel interessanter ist laut Brynjolfsson das, was diese Technik ermöglichen soll: den Abschied vom "Hippo-Prinzip". Hippo steht in diesem Fall für Highest Paid Person`s Opinion, also das Bauchgefühl des ranghöchsten Managers in einer Organisation. Diese sei in vielen Unternehmen immer noch die Grundlage strategischer Entscheidungen, so die Überzeugung des Hochschullehrers.

Daten lieferten jedoch weit bessere Ergebnisse als "Hippos", hat Brynjolfsson schon 2009 mit seinen Studenten und der Management-Beratung McKinsey & Co. herausgefunden. "Datengetriebene" Unternehmen seien um etwa sechs Prozent profitabler und brächten im Durchschnitt 50 Prozent mehr Marktwert auf als ihre Mitbewerber.

Die Fertigungsbranche liegt vorn

Wie sich im Rahmen der Untersuchung ebenfalls herausstellte, liegen die IT-Industrie sowie das produzierende Gewerbe weit vorn, wenn es um die Nutzung von Daten als Basis für Entscheidungen geht. Finanz- und andere Dienstleister zeigen einen Mix von Daten und Erfahrung. Der Handel und die Versorger haben hingegen ein deutliches Übergewicht auf der Hippo-Seite.

Stromversorger als Zielgruppe

Mit der Smart Grid Division der Siemens AG hat der Datenanalyse-Spezialist Teradata kürzlich eine Partnerschaft vereinbart: Die beiden wollen ihr Know-how zusammenwerfen und auf der Basis des "Utility Logical Data Model" von Teradata ein Big-Data-taugliches Datenanalyse-System für Versorgungsunternehmen vermarkten.

  • "Unser Geschäft mit den Utilities ist bislang relativ klein", räumt Hermann Wimmer, President von Teradata International, ein. Dabei hätten Deregulierung, Unbundling und die recht weit verstreute Energieerzeugung (Stichworte sind hier: Solarzellen und Windräder in Privatbesitz) dazu beigetragen, die Datenströme zu verzweigen und unübersichtlich zu machen.

  • Teradata müht sich seit drei Jahren, diesen Markt zu erobern. Mit den Siemens-Smart-Grid-Kunden steigen jetzt die Chancen dafür.

  • Vor etwa anderthalb Jahren hat die Siemens-Division bereits einen wichtigen Schritt in Richtung Datenanalyse getan - indem sie den kalifornischen Zählerdaten-Management-Spezialisten eMeter und seine Energy Information Platform (EnergyIP) akquiriert hat.

  • Das Thema Smart Metering ist allerdings derzeit noch häufiger in den Medien als in der Praxis präsent. "Die Verteilnetze sind heutzutage eher dumm", verrät Jan Mrosik, CEO der Siemens-Division Smart Grid.

  • Mit einer zweischichtigen Lösung wollen die beiden Anbieter das nun ändern. Die Architektur besteht aus zwei Komponenten:

    - einer Datenanalyse-Schicht (der Data-Warehouse- und Big-Data-Analyse-Plattform von Teradata) sowie

    - einer Suite von Anwendungen, die Teradata und Siemens gemeinsam entwickeln wollen.

  • Welche Applikationen im Einzelnen daraus hervorgehen, ist noch nicht entschieden. "Wir wollen erst einmal die Kunden überzeugen, bevor wir Produkte anbieten", erläutert David Socha, Utilities Practice Leader Emea bei Teradata. Die Klientel soll dann äußern, was sie tatsächlich braucht.

  • Auf jeden Fall beim Kunden vor Ort soll die jeweilige Lösung installiert werden. "Die Utlities-Industrie ist konservativ", weiß Socha aus langer Erfahrung: "Die Unternehmen sind noch nicht bereit, diese Daten einem Dienstleister anzuvertrauen."

Korrelation ist ungleich Kausalität

Doch Datensammeln allein bringt die Unternehmen nicht weiter. "Hüten Sie sich vor Vorurteilen", warnt Brynjolfsson, "Daten sind etwas anderes als Wissen, und Korrelation ist ungleich Kausalität." Im Klartext: Wenn die Fragen falsch gestellt oder Rahmenbedingungen außer Acht gelassen werden, sind die Ergebnisse nutzlos.

Als Beispiel führte der MIT-Professor den Zusammenhang von Lesefähigkeit und Schuhgröße an, den man aufgrund statistischer Auswertungen bei Schülern feststellen könne. Leider besage er gar nichts, weil ältere Schüler nun mal im Durchschnitt besser lesen können - und weil sie mit zunehmender Körperlänge auch größere Füße bekämen.

Bauchgefühl ist auch notwendig

Stephen Brobst, CTO bei Teradata: „Als Industry Consultants brauchen wir auch Leute mit verrückten Ideen.“
Foto: Teradata

Um solche Fallstricke zu umgehen, sind Data Scientists gefordert. Von denen gibt es noch zu wenige auf dem Arbeitsmarkt. Was können Anbieter und Berater leisten, um dieses Manko auszugleichen? "Unter unseren rund 5000 Consultants sind nicht nur solche, die sich als Klempner verstehen und beim Aufsetzen der Infrastruktur helfen", sagt Teradata-CTO Stephen Brobst. Etwa ein Drittel der unternehmenseigenen Berater seien "Industry Consultants". Sie könnten die Anwender bei der Suche nach den richtigen Daten und Fragen unterstützen. Dazu sei auch Bauchgefühl notwendig: "Man braucht die Wissenschaft und die Kunst. Deshalb suchen wir nach Leuten, die verrückte Ideen entwickeln können."
(Der Beitrag wurde von der CP-Schwesterpublikation Computerwoche übernommen / rb)