Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

02.05.1997 - 

Data-Warehouse/Data-Warehouses nur so gut wie der Input und die Fragestellungen

Schnellschüsse führen nur zu verzerrtem Output

Zu Zeiten des papiernen Datenwesens lautete die Devise noch recht einfach: "Trau keiner Statistik, die du nicht selbst gefälscht hast." Aber so simpel gestaltet sich die Sache angesichts heutiger Verarbeitungslösungen von Daten längst nicht mehr. Der Umgang mit Daten erweist sich angesichts der Fülle von Informationen als zunehmend problematisch. "Wir ertrinken in der Datenflut, dürsten aber nach Wissen", lautet eine gängige Klage.

Bereits in den frühen 80er Jahren kam die erste Generation entscheidungsunterstützender Systeme auf den Markt. Die Einführung massiv-paralleler Systeme und entsprechender Datenbankarchitekturen brachte den Gedanken des Data-Warehouse weiter in das Bewußtsein der Anwender. Es ist nicht nur faszinierend, das mögliche Kundenverhalten aus statistischen Daten der Vergangenheit zu prognostizieren, für viele Branchen ist eine derartige Vorhersage lebenswichtig für das weitere wirtschaftliche Wohlergehen.

So ist im Handel die Umschlaghäufigkeit eines Produkts erfolgbestimmend. Das frühzeitige Erkennen von Trendprodukten oder der gezielte Einsatz von Marketing-Aktionen leitet so manche Mark zusätzlich in die Kasse.

So banal es für das komplexe System eines Data-Warehouse auch klingen mag: Die Probleme beginnen in aller Regel damit, die Daten auszuwählen, die in das Data-Warehouse Eingang finden sollen. Informations-Collectionitis ist dabei fehl am Platz. Bevor nämlich überhaupt von Erkenntnissen aus der Verdichtung von Daten die Rede sein kann, muß Grundsätzliches geklärt sein.

Es sollte bereits vorher klar sein, ob die Daten, die in das System einfließen, von ihrem Inhalt her für den erwarteten Nutzen überhaupt relevant und stimmig sind. "Garbage in - garbage out" lautet das präzise und direkt formulierte Gesetz, nach dem sich die Qualität und der Nutzen eines Data-Warehouse letztlich richten.

Dabei ist nicht so sehr die Größe maßgeblich. Ein Data-Warehouse lohnt sich - geschickt aufbereitet - durchaus auch schon für Datenmengen im kleineren Megabyte-Bereich. Je mehr Daten allerdings Eingang finden, desto exakter läßt sich das Ergebnis schon allein nach den Gesetzen der Statistik trennen.

"Die inhaltliche Datenintegra- tion ist sicher eines der Argumente, um überhaupt aussagekräftige Ergebnisse zu erhalten", meint dazu Tiemo Winterkamp, Senior System Consultant der Informix Software GmbH in Frankfurt. Die bloße Erfassung von Daten - die immer noch bei vielen DV-Anwendungen vorherrschend ist - werde der Idee eines Data- Warehouse nicht gerecht.

Vielmehr gilt es nach Winterkamp, eine übergeordnete Architektur zu schaffen, die langfristig das Unternehmen mit relevanten Analysen versorgt. So ist mit Massendaten im Sinne einer Datenintegrität sauber umzugehen, Unnützes zu verwerfen und im Einzelfall nutzbringendes Material aus den verschiedenen Quellen, vom statistischen Bundesamt bis zu professionellen Datenbeschaffern, einzukaufen.

Im Zusammenhang mit Data-Warehousing sind einige Schlagwörter aufgekommen. Reporting meint das Erstellen von Berichten, beispielsweise von Listen, und ist eine altbekannte Tagesarbeit in der DV.

Hinzu kommen in jüngster Zeit Datenanalyse oder Online Analytical Processing (Olap) und Data-Mining - für viele bereits das DV-Wort des Jahres 1997. Olap behandelt die Aufbereitung analytischer Daten. Data-Mining schließlich sucht nach noch nicht bekannten Zusammenhängen von nichtlinear abhängigen Variablen.

Das berühmte Windel-Sixpack-Beispiel aus der Warenanordnung amerikanischer Supermärkte stammt aus diesem Bereich: Unklar ist allerdings immer noch, ob der maskuline Zielkäufer eher "Bier" denkt und Windeln als Alibi mit nach Hause bringt oder ob er von seiner Frau zum Windelkauf geschickt wird und sich dafür einen Sixpack als Belohnung gönnt.

Was aber, wenn sich ein rein zufälliger Zusammenhang zwischen Schampus und Zahnpasta erkennen ließe? An derart kleinen, durchaus an der Realität orientierten Beispielen offenbart sich die ganze Bandbreite von Sinn und Unsinn frei konstruierter Zusammenhänge. Fehlinterpretationen, die durch die Nichtbeachtung des menschlichen Faktors hinter allem stehen, sind anscheinend leicht möglich.

An die echten Grenzen der Erkenntnis stößt sicher die hochspezialisierte Analyse innerhalb umfangreicher Datenbestände. Sie bleibt im Normalfall ausgewählten Unternehmensbereichen vorbehalten und wird sich nicht zu einem PC-Massenvergnügen entwickeln. Hochspezialisierte Grafiken im Data-Mining schaffen mehrere farblich und räumlich getrennte Ebenen, die auf Anhieb nicht ohne weiteres zu begreifen sind.

Schon das grenzt den Benutzerkreis oft ein. Data-Mining-Anwendungen umfassen nach Einschätzung von Winterkamp nur einen geringen Anteil aller Anwendungen der Datenaufbereitung, während Reporting und Olap über leistungsfähige Tools immer größere Verbreitung finden. "Einer verlagerten Entscheidungsmacht werden mehr Werkzeuge in die Hand gegeben", so der Frankfurter Datenbankspezialist.

Je nach Interpretation: Ansprechend muß es sein - oder leicht zu überblicken. Bunte Bildchen sind Pflicht und Bestandteil jedes Programms. Kein Paket kommt heute mehr ohne beachtliche Grafikmöglichkeiten auf den Markt.

Trotz auffallendem Äußeren gilt, daß die Qualität der Eingabe nicht unbedingt die Ausgabe von Nonsens verhindert. Das komplette, von einer einzigen Person gegessene Hähnchen macht zwei Personen mit je einem halben Hähnchen als Mahlzeit nur statistisch satt. Bei der Frage der Eingabe und der Extraktion muß der einzelne mit seinem gesunden Menschenverstand also durchaus der bedeutendere Faktor in der Kette sein. Die Zwischenschritte sind als solche leicht zu automatisieren.

Systeme amortisieren sich relativ schnell

Hanebüchene Ergebnisse, so zeigt es die Erfahrung, haben vielfach in einem übereilten Vorgehen und daraus resultierenden unscharfen Modellierungen ihre Ursachen. So wird nach Meinung von Experten der Faktor Zeit bei der Implementierung eines Data-Warehouse regelmäßig unterschätzt. Schon zu Beginn der Arbeiten sollte man "das große Ganze" vor Augen haben. Dann aber heißt es: Die Implementierung mit kleinen, überschaubaren Schritten und Meilensteinen zu starten.

Auf diese Weise kann ein Evolutionsprozeß anlaufen, der gleichermaßen einer ständigen Fortentwicklung und Überarbeitung der Ergebnisse dient. Zudem berge diese Vorgehensweise den großen Vorteil, auf der Basis von Vorhandenem Freunde für das Projekt zu sammeln, meint Winterkamp. Denn ein gepflegtes Data-Warehouse kostet durchaus Investitionskraft, und Projekte zur Analyse von Datenbergen in Terabyte-Höhe lassen sich nicht über Nacht umsetzen. Ein Trost: Nach den wenigen vorhandenen Analysen über große, leistungsfähige Data-Warehouses amortisieren sich diese Systeme trotz ihres hohen Aufwands im Vergleich zu anderen Projekten relativ schnell.

Zu Beginn gehört ein sauberes Modell zur wichtigen Basisanforderung. Wird aber das Unternehmensdatenmodell als solches plötzlich beherrschend, kann gleichzeitig eine Behinderung eintreten. Eine zu starke Fixierung auf das Endergebnis blockiert die ersten Erfolge und die Möglichkeit, zu revidieren und an den Parametern zu arbeiten. Innerhalb des Projekts sollten die Verantwortlichen deshalb eine gewisse Regelmäßigkeit der Ergebnispräsentation einhalten - allein schon, um im Kontakt mit den Anwendern Absurditäten auszumerzen.

Dem entgegenzusteuern erfordert ohnehin einigen Kraftaufwand. Zudem ist im Verlauf des Projekts auch besser abzuschätzen, ob und in welchem Umfang welche Daten extern hinzugekauft werden sollten. Diese können nicht nur zu einer Bereicherung der eigenen Analysen und Aussagen dienen, sondern lassen sich eventuell auch zur Verifizierung der eigenen Bestände heranziehen.

Der große Nutzen eines gut geführten Data-Warehouse liegt darin, daß über einen Zeitraum von mehreren Jahren eine zentrale Informationsbasis entsteht, die Verläßlichkeit besitzt. Sauberes Arbeiten schafft Akzeptanz - und ermöglicht Transparenz. Dann erst wird aus dem Data-Warehousing das gut sortierte unternehmerische Hilfsmittel, das seinen Zweck erfüllt.

Angeklickt

Die Assoziationen, die mit einem Data-Warehouse landläufig verbunden werden, bewegen sich zwischen arabischem Basar und wohlsortiertem Informations-Nobelkaufhaus ê la Harrod´s in London. Doch nichts bestätigt solch überzogene Erwartungen. Data-Warehouses sind keine Recycling-Center, um massenhaft anfallenden Datenmüll aufzubereiten. Hier gilt erstens: "Garbage in - garbage out!" Und zweitens: Wer unüberlegte Fragen stellt oder absurde Verknüpfungen konstruiert, erhält auch auf schönster Datengrundlage irreführende Antworten.

*Horst-Joachim Hoffmann ist freier DV-Fachjournalist in München.