Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

26.03.1999 - 

Data-Mining: Studie nimmt gängige Produkte unter die Lupe

Data-Mining: Studie nimmt gängige Produkte unter die Lupe Auch günstige Werkzeuge fördern Datengold zutage

MÜNCHEN (CW) - Data-Mining verspricht, aus umfangreichen Datenbeständen bisher unbekannte geschäftsrelevante Informationen zutage zu fördern. Die Technik stellt hohe Ansprüche an die Datenqualität und verlangt dem Anwender viel statistisches Know-how ab. Auch die Auswahl des richtigen Produktes ist eine Wissenschaft für sich.

Anbietern von Data-Mining-Werkzeugen wird eine goldene Zukunft vorausgesagt. Marktforscher der Meta Group etwa prognostizieren der noch jungen Branche für das Jahr 2000 einen weltweiten Umsatz von 8,4 Milliarden Dollar. Die Gartner Group kam zu dem Ergebnis, daß 50 Prozent aller Top-1000-Unternehmen Data-Mining in den nächsten zwei Jahren nutzen wollen. Dabei ist die Einführung der Technik in die Unternehmens-DV ein kompliziertes Unterfangen. Qualitativ hochwertige und vollständige Daten, die idealerweise einem Data-Warehouse entstammen, müssen verfügbar sein. Unternehmen benötigen Spezialisten und statistisches Know-how, um erfolgreich nach verborgenen Informationen und Zusammenhängen forschen zu können.

Anwender können zudem zwischen rund 100 Data-Mining-Werkzeugen wählen. Das Angebot reicht von einfachen Desktop-Applikationen ab 1200 Mark bis hin zu High-end-Komplettpaketen für rund 350000 Mark. Ein Fehlgriff könnte daher nicht nur aus technischen sondern auch aus finanziellen Gründen für viel Ärger in den Abteilungen sorgen. Eine aktuelle Studie der Wissenschaftlichen Hochschule für Unternehmensführung (WHU) Koblenz will deshalb Interessenten Beurteilungskriterien an die Hand geben, um den Auswahlprozeß zu erleichtern. Laut Klaus Fochler und Peter Gentsch* wählte man hierzu sieben nach weltweit verkauften Lizenzen am häufigsten genutzte Data-Mining-Tools und prüfte sie auf Herz und Nieren (siehe Tabelle). Die Untersuchung berücksichtigt Aspekte wie Bedienerfreundlichkeit und Funktionalität aber auch Hardwareanforderungen und Performance und versuchte die Produkte nach ihrem Nutzen für betriebswirtschaftliche Problemstellungen zu bewerten.

Das Ergebnis war nach Angaben der Autoren "ernüchternd aber nicht entmutigend". So zeigte sich, daß die Versprechungen mancher Hersteller, ihre Data-Mining-Tools könnten per Plug and Play-Lösung installiert werden und fänden vollständig autonom interessante Muster in Datenbanken, ins Reich der Märchen gehören. Vielmehr erfordert das Schürfen nach Informationen in regelmäßigen Abständen eine Wiederaufbereitung der Daten (manuelle Modifikationen und veränderte Vorgaben) , die erneutes Mining zur Folge hat. Dennoch sind die Tools in den letzten Jahren leistungsfähiger und autonomer geworden.

Die getesteten Werkzeuge generierten zum Teil bis zu 500 Regeln, von denen viele eine hohe Klassifikationsgüte und Modelladäquanz aufwiesen, aber nur wenige wirklich interessant sind. Ursache hierfür ist, daß die Software keine inhaltlich signifikanten, sondern grundsätzlich nur statistisch interessante Muster erkennt. Ein Großteil der zugrundeliegenden Regeln ist redundant oder trivial. Ein in der Studie zitiertes Beispiel bei einer Fluggesellschaft betrifft eine Regel, die besagt, daß eine bestimmte Reservierungsform immer in Zusammenhang mit einer bestimmten Buchungsklasse steht.

Trivial ist diese Regel deshalb, weil die genannte Buchungsklasse nur über diese Reservierungsform in Anspruch genommen werden kann. Dennoch müssen solche Erkenntnisse nicht grundsätzlich überflüssig sein; gerade ungeübte Benutzer können auch von trivialen Regeln profitieren, da sie ihm leicht verständliche Informationen über die im Datenbestand abgebildeten Geschäftsobjekte liefern.

Ein weiterer Unterschied zwischen den Produkten zeigte sich in puncto Performanz. Da die notwendige Rechenzeit zwar mit der Anzahl der Datensätze linear, jedoch mit der Anzahl der Attribute überproportional steigt, führt dies bei Desktop-Tools zu relativ langen Rechenzeiten. Diese sollten deshalb bei einem Datenvolumen von über 100000 Datensätzen nicht mehr als 20 Attribute für die Untersuchung verwenden, was aber in der Praxis keine große Einschränkung bedeutet, da häufig sowieso nur wenige analysefähige Daten zur Verfügung stehen.

Große Datenmengen können Probleme machen

Problematisch ist zudem, daß bei der Datenhaltung alle getesteten Werkzeuge außer dem "Deltaminer" von Bissantz & Company nicht direkt auf die Datenbank zugreifen, sondern die zu analysierenden Daten lokal in einem proprietären Format als redundante Datei vorhalten. Dies kann beim Mining großer Datenvolumina zu Speicherplatzproblemen führen, die sich nur noch von High-end-Produkten bei annehmbaren Rechnenzeiten handhaben lassen.

Wenig sinnvoll ist die Produktauswahl hingegen anhand der in den Tools verwendeten Algorithmen. So bieten die meisten Werkzeuge die Mining-Technik "Entscheidungsbaum" (siehe Grafik) und verwenden mit ihr dieselben Suchalgorithmen Chaid (Chi-Squared Automatic Interaction Detector) oder Chart ( Classification and Regression Trees). Ein vergleichbares Beispiel ist der "C4.5"-Algorithmus von Quinlan, der sowohl von hochpreisigen Tools wie dem "Enterprise Miner" von SAS als auch von dem deutlich billigeren Tool "Dataengine" von MIT (inklusive Plug-in "Decisionxpert" für Entscheidungsbäume) genutzt wird. Wichtiger für die Auswahl eines Produktes ist es deshalb, auf die Anzahl der implementierten Methoden, die Parametrisierbarkeit, die Validierungsmöglichkeiten (Prüfung der Gültigkeit von Aussagen) sowie den erforderlichen Einarbeitungsaufwand zu achten. Hier haben High-end-Produkte den Vorteil, daß sie von Haus aus verschiedene Auswahlmethoden für Attribute der Entscheidungsbäume wie "Entropie", "Gini" oder "c2" sowie weitere Mining-Techniken wie etwa "Neuronale Netze" mitliefern. Allerdings sind diese Werkzeuge lernintensiver und erfordern mehr Know-how beim Anwender.

Neben den technischen Kriterien raten die Autoren, einem an die Situation im Unternehmen angepaßtes Vorgehensmodell bei Einführung und Beurteilung von Data-Mining-Tools zu folgen. So muß zuerst geklärt sein, ob für den Einsatz der Werkzeuge überhaupt eine Datenbasis verfügbar ist, die eine ausreichend hohe Datenqualität (Vollständigkeit, Integrität) und einen angemessenen Detaillierungsgrad (Anzahl der Attribute) bietet. Dies ist in der Praxis die schwerste und zeitintensivste Aufgabe, die bisher nur wenige Produkte unterstützen.

Auch muß die Fachabteilung zusammen mit DV-Spezialisten prüfen, wie sich die Datenbasis später über Schnittstellen integrieren läßt und welches die Hardware-Anforderungen sind. Die Entscheidung für Data-Mining steht zudem sinnvollerweise im engen Zusammenhang mit dem Entwicklungsstand des eigenen Data-Warehouse oder Olap-Systems, aus denen die bereinigten und transformierten Daten normalerweise stammen. Eine unabhängige Data-Mining-Strategie hat den Nachteil, sehr arbeits- und zeitintensiv zu sein.

Insbesondere Unternehmen, die noch keine Erfahrungen mit Data-Mining gesammelt haben, sollten zunächst ein preisgünstiges, sich auf wenige Methoden beschränkendes Desktop-Produkt wählen und getreu dem Motto "think big, start small" handeln. Auf diese Weise läßt sich herausfinden, wie zeit- und personalintensiv die Produkte wirklich sind und welcher Aufwand für die Bereitstellung des relevanten Datenbestandes notwendig ist. Für betriebswirtschaftliche Problemstellungen empfehlen die Autoren als Einstiegstechnik den bereits genannten Entscheidungsbaum. Dieser hat sich über die Jahre bewährt und erleichtert dank seiner anschaulichen und leicht verständlichen grafischen Darstellung auch nicht-versierten Anwendern die Auswertung. Er wird vor allem zur Klassifizierung verwendet; für die Vorhersage kontinuierlicher Werte ist er weniger geeignet.

Soll dann zu einem späteren Zeitpunkt die Arbeit mit Data-Mininig intensiviert werden, können weitere Methoden sukzessive hinzugenommen werden, um die bisherigen Ergebnisse zu verfeinern und zu überprüfen. Leider bieten die untersuchten Produkte aber entweder nur eine Mining-Methode an (Business Objects, Cognos) oder sind kostspielige Softwarepakete mit vielen Methoden (SAS, Angoss), die nicht einzeln erhältlich sind. Wünschenswert wäre es zudem, wenn es eine engere Integration zwischen Produkten verschiedener Hersteller etwa über bidirektionale Schnittstellen gäbe, um das eigene Data-Mining-System weiter ausbauen zu können. Hier ist zumindest für die Zukunft zu erwarten, daß die Anbieter verstärkt Data-Mining- und Statistik-Funktionalität in ihre Produkte integrieren und weitere Partnerschaften mit Spezialisten eingehen.

Methode und Bezugsquelle

Das Unternehmen Enterprise Consulting GmbH, Bad Homburg v.d. Höhe, und die Wissenschaftlichen Hochschule für Unternehmensführung (WHU), Vallendar, haben den Markt für Data-Mining-Tools in einer 150seitigen Studie anhand sieben häufig genutzter Produkte untersucht. Es waren dies "Knowledgeseeker" des kanadischen Anbieters Angoss, "Deltaminer" von der Bissantz & Company GmbH, "Business Miner" 4.1. von Business Objects, "Scenario" 2.044 von Cognos, "Dataengine" von MIT "Enterprise Miner" von SAS Institute sowie "Answertree 1.0" von SPSS. Für Tests nutzten die Autoren Real- und Simulationsdatensätze und stellten die Ergebnisse in einem umfassenden Kriterienkatalog zusammen. Er soll als Entscheidungshilfe in anstehenden und aktuellen Data-Mining-Projekten dienen.

Die Studie kann per Fax bei Enterprise Consulting zum Preis von 590 Mark unter 06172-18076-66 bestellt werden.

*Klaus Fochler ist Geschäftsführer bei der Enterprise Consulting GmbH, Bad Homburg v. d. Höhe. Peter Gentsch ist Mitarbeiter der Wissenschaftlichen Hochschule für Unternehmensführung (WHU), Vallendar, und freier Mitarbeiter bei der Enterprise Consulting.