Datability

Big Data läutet neue Analytics-Ära ein

Marcus Dill ist Geschäftsführer beim Data-Mining-Spezialisten Mayato.

Anbieter verbessern ihre Werkzeuge

Einer der Vorreiter in dieser Hinsicht war sicherlich die Firma KXEN. Der Spezialanbieter, der 2013 von SAP übernommen worden war, verfügt schon seit über einem Jahrzehnt über Algorithmen, die auch mit unsauberen Daten ohne allzu viele Datenbereinigungen gute Ergebnisse liefern. Tatsächlich belegen aber die Ergebnisse der Data-Mining-Studien von mayato aus den vergangenen Jahren, dass mittlerweile alle wichtigen Anbieter - allen voran SAS und IBM SPSS - ihre Werkzeuge in dieser Hinsicht erheblich verbessert haben und über ähnlich leistungsfähige Algorithmen verfügen.

Hinzu kommen deutlich verbesserte Visualisierungsmöglichkeiten. Der Weg von den Daten zur Erkenntnis lässt sich mit moderner Analysesoftware deutlich verkürzen, was nicht nur Aufwand und Kosten reduziert, sondern den Ablauf der Analyse auch in ein Zeitfenster bringt, das es erlaubt, wiederum über neue Anwendungsgebiete nachzudenken. In vielen Fällen lassen sich Analysen tatsächlich vollständig automatisieren und die gefundenen Muster und Regeln einfach und schnell an neue Gegebenheiten anpassen. Dies führt beispielsweise im Bereich Betrugserkennung dazu, dass neue Maschen schneller als bisher erkannt werden können. Auch auf Veränderungen im Kundenverhalten, zum Beispiel durch das plötzliche Auftauchen eines Konkurrenzangebots, lässt sich so schneller reagieren.

Big Data Analytics erlaubt grundsätzlich nicht nur die Wiedererkennung von bereits bekannten Mustern und die Anwendung von Regeln in Echtzeit, die zuvor mit Hilfe von intelligenten Verfahren ermittelt worden sind. Es können heute vielmehr Systeme entwickelt werden, die sich kontinuierlich selbst optimieren, indem sie immer wieder neue Daten nach veränderten Zusammenhängen prüfen. Realtime Analytics erreicht damit eine neue Qualität. Der Mensch tritt als Analyst in den Hintergrund. Er überwacht den Analysemechanismus lediglich im Sinne eines Monitoring.

In dem Maße, in dem Systeme auch ohne menschliches Zutun funktionieren, tritt auch die Frage zunehmend in den Hintergrund, welche Ursachen und Kausalzusammenhänge hinter einem gefundenen Muster liegen. Was zählt, ist lediglich das Zutreffen einer Prognose und die Wirksamkeit einer Maßnahme. Eine Begründung, wieso dies der Fall ist, interessiert oftmals nicht mehr. Tatsächlich beruhen viele der Analysemodelle auch auf sehr komplexen Zusammenhängen mit nicht selten Dutzenden von Faktoren innerhalb der Daten. In solchen Fällen wären einfache Erklärungsversuche sowieso zum Scheitern verurteilt.

Welche Daten dürfen genutzt werden?

Doch welche Daten dürfen in Analysen mit einbezogen werden und damit beispielsweise potentiell zu einer Ungleichbehandlung von Menschen führen? Darf ein Unternehmen Geschlecht, ethnische Herkunft oder Alter eines Kunden oder Mitarbeiters überhaupt für Analysen heranziehen? Datenschutz und Gleichstellungsgesetze setzen hier grundsätzlich klare Grenzen. Versicherungen mussten bereits auf Unisextarife umstellen, obwohl statistische Risiken von Männern und Frauen in verschiedenen Sparten sich durchaus deutlich unterscheiden. Doch in vielen anderen Branchen und Anwendungsgebieten gibt es noch weite Graubereiche, die zukünftig kontrovers diskutiert werden dürften und auf eine klare Regelung warten.

Für strukturierte Daten gibt es mittlerweile eine Vielzahl von Ansätzen zur effektiven Anonymisierung. Auch wenn diese in der Praxis noch nicht überall Anwendung finden, erlauben sie im Prinzip die Verarbeitung und Analyse im Einklang mit dem Bundesdatenschutzgesetz. Für unstrukturierte Daten ist eine Anonymisierung dagegen oftmals nur schwer oder überhaupt nicht zu erreichen. Indirekte Personenbezüge innerhalb von Texten können beispielsweise so vielfältig sein, dass sie kaum vollständig eliminiert werden könnten. Auch zu einem Foto den formalen Personenbezug zu entfernen, reicht sicher in Zeiten sehr guter Gesichtserkennungssoftware nicht mehr aus. Auch bei strukturierten Daten kann der Verzicht auf die aufbereitende Verarbeitung für Analysen zu Problemen im Bereich Datenschutz führen. (ba/sh)

Zur Startseite