Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

23.03.2001 - 

Auf den Inhalt kommt es an

Dokumenteninterpretation - ein K.-o.-Kriterium

Anwender und Berater sind sich einig: Die automatische Klassifikation und Interpretation von Inhalten ist eine wesentliche Voraussetzung für den erfolgreichen Einsatz von Archiv-, Dokumenten-Management- und Workflow-Systemen. Wo bislang die Erfassung von Dokumenten durch den Engpass bei der manuellen Indizierung gebremst und oft verhindert wurde, kann nun automatisiert werden. Von Gerhard Detzel*

Der in der Branche häufig verwendete Begriff Dokumentenklassifikation ist irreführend. Die eigentliche Klassifikation, nämlich die Einteilung von unbekannten Dokumenten in Klassen, stellt nur eine Teilaufgabe in einer typischen Anwendung eines Dokumenten-Management-Systems (DMS) dar. Für die Weiterleitung, die Indizierung im Archivsystem und die spätere Bearbeitung in Geschäftsprozessen sind weit mehr Informationen aus dem Dokument erforderlich. Der wirtschaftliche Nutzen einer maschinellen Interpretation ist hier sogar am größten. Dies gilt vor allem bei besonders häufig auftretenden Dokumenten wie Rechnungen, Bestellungen oder Lieferscheinen.

Präsentationen beweisen noch nichtsAuf den stark wachsenden Bedarf an solchen Verfahren reagieren mittlerweile mehrere Hersteller mit verschiedenen Lösungen. Die angebotenen Systeme unterscheiden sich jedoch gewaltig, sowohl in ihrem technologischen Ansatz, als auch in der zu lösenden Aufgabe. Damit stellt sich für den Anwender die Frage nach den wesentlichen Faktoren, die für die Auswahl des richtigen Systems entscheidend sind.

Eine automatische Klassifikation steht und fällt mit der Qualität der Interpretationsergebnisse. Diese bestimmen während des gesamten Lebenszyklus eines Dokuments maßgeblich die Zufriedenheit des Anwenders und wirken sich direkt auf die laufenden Kosten aus. Die eingesetzten OCR-Komponenten (Optical Character Recognition) müssen Best of Class sein. Um nicht zuerst Euphorie und dann Frust zu erleben, ist es besser, von Anfang an leistungsfähige Produkte auszuwählen und intensiv zu testen, statt später durch mühsame Verbesserungsversuche doch noch befriedigende Ergebnisse zu erhalten. Die Erfahrung zeigt, dass auf den ersten Blick, etwa während einer spontanen Produktdemonstration, erstaunlich gute Erkennungsergebnisse mit recht geringem Aufwand möglich sind. Im Echtbetrieb jedoch kann der Aufwand für das System leicht ins Unermessliche steigen. Hier sind also leistungsfähige und erprobte Werkzeuge gefragt, die am besten auf langer Erfahrung beruhen.

Die anschließende Wahl der passenden Klassifikationstechnik hängt stark vom Bereich ab, in dem sie eingesetzt werden soll. Um ein Goethe-Gedicht von einem Bibeltext zu unterscheiden, sind andere Verfahren gefragt, als wenn es darum geht, Dokumente aus geschäftlichen Prozessen zu verarbeiten. Für Texte aus dem Pressebereich oder der Literatur benötigt man komplexe linguistische oder semantische Analysetechniken.

Geschäftspost erfordert eigene MethodenFür typische Geschäftspost sind solche Verfahren kaum erforderlich. Hier sind zuverlässige textuelle Methoden, wie im Folgenden beschrieben, am effektivsten. Außerdem muss eine leistungsfähige Dokumenteninterpretation im Geschäftsbereich wesentliche Informationen aus dem Dokument wie Adressen, Indizierfelder oder sogar ganze Tabellen mit hoher Leserate liefern können. Diese Informationen verschonen die Sachbearbeiter von mühsamer manueller Dateneingabe. Zudem sind solche Daten eine Goldgrube für findige Analysten und Marketing-Strategen.

In den meisten Geschäftsprozessen wird eine Vielzahl von unterschiedlichen Dokumenten erfasst. Man kann nun jeden Dokumententyp sozusagen als Formular ansehen, das dann auf Grund von formularspezifischen Merkmalen wie Logos oder anderen geometrischen Gegebenheiten identifiziert und interpretiert wird. Diese eher veraltete Vorgehensweise wird mit der Vielzahl der inzwischen anfallenden Dokumententypen zunehmend unpraktikabel, ebenso wenn die Dokumente innerhalb eines Typs stark variieren. Bei E-Mails und Office-Dokumenten sind gleichfalls andere Verfahren gefragt.

Vom Sachbearbeiter abgegucktUm dem breiten Spektrum von Dokumenten gerecht zu werden, ist deshalb ein generischer Ansatz erforderlich. Das heißt, die Technik sollte so arbeiten, wie der Mensch normalerweise vorgehen würde. Man weiß ungefähr, wo beispielsweise auf einer Rechnung ein Rechnungsbetrag zu finden ist, und liest dann den Text genauer: erlaube ich mir in Rechnung zu stellen... Durch die Festlegung solcher, auch unscharfer, Merkmale ist das System in der Lage, aus beliebigen Dokumenten die gesuchten Inhalte zu interpretieren. Bei diesem regelbasierten Vorgehen können also alle gewünschten Dokumententypen vordefiniert und bei Veränderungen nachgepflegt werden. Um diese Merkmale effektiv einstellen zu können, ist unbedingt ein komfortables Parametrierungs-Tool erforderlich, da eine Definition der Dokumententypen und der zu erfassenden Informationen ohne Programmierkenntnisse erfolgen sollte. Andernfalls kann sich jede kleine Änderung leicht zu einem Softwareprojekt ausdehnen. Die grafische Unterstützung sowie eine moderne Benutzeroberfläche gehören also selbstverständlich dazu, damit auch die Fachabteilung bei der Erstellung und Modifikation einer Anwendung Hand anlegen kann.

Tools zur gezielten NachbesserungBei der Nachbesserung von Anwendungen steht die Frage im Vordergrund: Warum wurde dieses Dokument nicht richtig erkannt? Um hier nicht im Dunkeln zu tappen, sollte ein Parametrierungs-Tool über effektive Diagnosefunktionen verfügen. Dazu gehört auch, dass sich die Auswirkung einer Änderung unmittelbar nachvollziehen lässt, ohne langwierige Kompilierungsphasen und Testimplementierungen. Die Erfahrung in den Bereichen Muster- und Zeichenerkennung zeigt, dass geeignete Werkzeuge eine entscheidende Rolle für die erfolgreiche Abwicklung von Projekten spielen.

Die regelbasierte Vorgehensweise, die im Vergleich zu selbstlernenden Systemen zunächst aufwändig erscheint, zahlt sich später in der Produktionsphase aus: Der Anwender behält die Kontrolle, und die für selbstlernende Lösungen typische Gefahr des Übertrainierens besteht nicht. Selbstlernende Verfahren ermitteln die relevanten Unterscheidungskriterien anhand der Dokumente selbst.

Regelbasiert vor SelbstlernenEine überdimensionierte Lernmenge kann also leicht zur falschen Klassifikation und erhöhtem Korrekturaufwand führen. Bei einem regelbasierten System ist der Aufwand anfangs zwar höher, langfristig gesehen jedoch geringer. Dies gilt wiederum nur für die reine Klassifikation. Über Indizier- und Lesefelder muss das System in jedem Fall manuell belehrt werden, da sich diese nicht automatisch festlegen lassen.

Um den Anfangsaufwand möglichst gering zu halten, ist es vorteilhaft, wenn in einem System die häufigsten Dokumententypen und Datenstrukturen bereits weitgehend vordefiniert sind, so dass diese nicht in jedem Projekt neu generiert werden müssen. Ein typisches Beispiel sind Rechnungen, auf denen immer die Rechnungsnummer und der Rechnungsbetrag erfasst werden. Solche Elemente sollten in einer Dokumenteninterpretation bereits vorhanden sein, um sie mit geringem Aufwand an die jeweilige Anwendung anpassen zu können.

Wie beschrieben spannt sich das Aufgabenspektrum von der einfachen Ermittlung eines Dokumententyps bis hin zur Interpretation von ganzen Tabelleninhalten. Um auf jede Anforderung angemessen reagieren zu können, sollte ein System ausreichend modular angelegt sein. Erst dann ist sichergestellt, dass für eine bestimmte Aufgabe maßgeschneiderte Funktionen bereitstehen. Das hat natürlich Auswirkungen auf den Preis: Zu bezahlen sind nur die Funktionen, die benötigt werden. Dies gilt ebenso für durchsatzabhängige Lizenzkosten. Erst ein fein abgestuftes Modell nach Dokumentendurchsatz pro Tag oder Jahr ermöglicht die wirtschaftlichste Nutzung des Systems.

Für die Produkte, die in die engere Auswahl kommen, stellt sich schließlich die Frage der Integration und der Schnittstellen. Ist die Dokumenteninterpretation nur als integraler Bestandteil eines Archiv- oder Dokumenten-Management-Systems verfügbar, dann lässt sie sich in einem anderen System schwer einsetzen. Als modulare Interpretations-Engine dagegen ist sie mit geringem Aufwand in beliebige Umgebungen integrierbar. Die Verfügbarkeit von komfortablen Standardschnittstellen erleichtert ihre reibungslose und kostengünstige Einbindung.

Nicht vergessen: XMLIm Hinblick auf die Internet-geprägte Zukunft ist die Extensible Markup Language (XML) als Datenformat für die Ausgabe sicher die richtige Wahl. Auch auf der Eingabeseite werden das Internet und die vielfältigen E-Lösungen das Bild mit der Zeit verändern. Wo heute Dokumente noch vom Papier in digitale Form überführt werden müssen, stehen künftig andere Medien: Fax, E-Mail und Office-Dokumente. Eine Dokumenteninterpretation sollte darauf vorbereitet sein.

*Gerhard Detzel ist Produkt- und MarketingManager bei der Océ Document Technologies GmbH, Konstanz

Zehn Erfolgskriterien-Sind Klassifikation, Indizierung, Feldinterpretation, Tabellen, Adressen verfügbar?

-Sind gute Interpretationsergebnisse auf Basis von guter OCR-Technik möglich?

-Passt die Technik zu den Dokumenten?

-Ist eine manuelle Optimierung möglich?

-Verfügt das System über eine moderne grafische Oberfläche zur Parametrisierung?

-Werden Vorlagen für typische Dokumente angeboten?

-Sind die Preise durchsatz- und funktionsbezogen?

-Ist das Ausgabeformat XML verfügbar?

-Ist die Integration als Engine möglich?

-Ist das System für andere Medien und Formate (Fax, E-Mail etc.) vorbereitet?

Abb: Dokumente im Geschäftsprozess

Eingehende Dokumente werden zunächst klassifiziert. Abhängig vom jeweiligen Dokumententyp werden anschließend die relevanten Informationen interpretiert, die dann zur automatischen Indizierung, Weiterleitung und zur Sachbearbeitung verwendet werden. Quelle: Océ