Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

24.05.1996 - 

Speichern und Archivieren/Die Wühlmaus im Archiv hat ausgedient

Statt Bergen von Aktenordnern digitale Dokumentenspeicherung

Eigentlich ist ein Einsatz von Archivierungssystemen in Unternehmen weder neu noch revolutionär. Seit Mitte der 80er Jahre träumen DV-Anwender vom papierlosen oder zumindest vom papierarmen Büro. In der Realität jedoch ist eher das Gegenteil der Fall - mit fatalen Konsequenzen:

-Täglich werden weltweit zirka 1,5 Milliarden Dokumentenseiten (DIN A4) erzeugt, die jährliche Steigerungsrate beträgt laut Rank Xerox 25 Prozent.

-Lediglich zehn Prozent der papierbasierten Informationen sind nach Angaben von Seybold verfügbar.

-Von herkömmlich gespeicherten Dokumenten sind nach einer Studie der Delphi Consulting Group zwei Drittel als unwiederbringlich verloren anzusehen.

Solche Angaben belegen, daß ein Einsatz von Archivierungs- und Retrieval-Systemen allein schon deshalb erforderlich wird, um die Papierflut und die verschwendete Arbeitszeit für die Suche nach Dokumenten zu minimieren. Auch sind dadurch die Einsparungen beim Raumbedarf beträchtlich.

Die Motive für einen Einsatz einer Archivierungs- oder Retrieval-Lösung liegen auf der Hand. So ermittelte Delphi, daß sich über 50 Prozent der befragten Unternehmen aufgrund der zu erwartenden Prozeßoptimierung für den Einsatz einer solchen Lösung entscheiden würden. Weitere Argumente sind unter anderem Kostenersparnis, Zeitgewinn und eine Reduzierung des Papierverbrauchs.

Ein digitales Archiv läßt sich heute in folgende Komponenten unterteilen:

-die automatisierte Erfassung von Informationen,

-das Speichermedium mit Zugriffsmechanik,

-das Datenbanksystem (relational oder Volltext) sowie

-Recherche und Zugriff.

Diese Komponenten sind erst nach und nach zusammengewachsen und haben eine parallele Geschichte. Um die Papierflut einzudämmen, bediente man sich zu Beginn der 80er Jahre der Mikroverfilmung. Doch ähnlich einem Papierarchiv haben Mikrofilmarchive den Nachteil, daß das Wiederauffinden von Informationen viel Zeit in Anspruch nimmt.

Später wurden - und werden zum Teil noch heute - Magnetbänder zur Archivierung genutzt. Diese Speichermedien haben allerdings neben dem möglichen Datenverlust den Nachteil, daß man auf archivierte Datenbestände nicht unmittelbar zugreifen kann, da die Daten sequentiell hintereinander geschrieben werden.

Muß sich ein Unternehmen heute für ein Speichermedium zur Datenarchivierung entscheiden, wird es in der Regel auf magneto-optische Medien zurückgreifen. Diese bieten, neben der schnellen Wiederauffindbarkeit von Informationen die Möglichkeit, auch Dokumente archivieren zu können, die in digitaler Form vorliegen (Text- Bild- oder Sounddateien).

Darüber hinaus weisen sie ein attraktives Preis-Leistungs-Verhältnis, eine fortgeschrittene Standardisierung und eine hohe Datensicherheit auf. Sie sind mehrfach beschreibbar, was die Materialkosten der Anschaffung für das Speichermedium günstig beeinflußt. Magneto-optische Platten sind dann vorteilhaft, wenn das Archiv nur eine kurze Lebensdauer haben soll oder die Belege schnell veralten.

Archivierung, Retrieval und Workflow in einem

Eine andere Alternative bietet sich in Form der WORM-Speicher (write once, read multiple) an. WORM kommt dem Langzeitkonzept einer Archivierung entgegen. Denn eine einmal archivierte Datei läßt sich nicht löschen oder manipulieren. Das Dokument bleibt dauerhaft gespeichert.

Deshalb eignet sich die Archivierung auf WORM-Platten insbesondere für Buchhaltungsunterlagen oder zur Ablage von Informationen, auf die man noch jahrelang wieder in Originalform zugreifen muß. Mehrere Platten lassen sich in einer sogenannten Jukebox ablegen. Auf alle ist dann ein gleich schneller Zugriff möglich.

Auch auf CD-ROMs lassen sich Informationen archivieren. Doch hat dieses Medium den Nachteil, daß das Schreiben in einem ununterbrochenen Arbeitsgang erfolgen muß und ein Lesen der Informationen erst dann möglich ist, wenn eine CD vollständig beschrieben ist.

Auch der Retrieval-Bereich entwickelte sich eigenständig. In nahezu jeder professionellen Textverarbeitung kann man Dokumente mit einer Stichwortsuche wiederfinden. Diese Suche bezieht sich aber dann nur auf Dokumente, die mit dieser Software erstellt wurden. Später kamen dann echte Retrieval-Programme wie "Titan", "Asksam" oder "Lars" auf den Markt, mit denen sich programmübergreifend nach Dateien und Inhalten suchen ließ.

In jüngster Zeit wachsen sinnvollerweise die Bereiche Archivieren und Retrieval enger zusammen. Beispiele für integrierte Archivierungs- und Retrieval-Programme sind "Easy-Archiv" von der Easy GmbH, "Scanview" von daa oder "Hyparchiv" von ACS.

Das Produktangebot hat sich also vergrößert. Die Entwicklung geht sogar noch weiter: Archivierungs- und Retrieval-Systeme wachsen mit eigenständigen Workflow-Systemen zu ganzheitlichen Basistechnologien zusammen. Was vor kurzer Zeit noch die Integration von Textverarbeitung, Datenbank und Tabellenkalkulation zu Office-Paketen war, ist heute die Kombination von Archivierung, Retrieval und Workflow.

Zahlreiche Hersteller versuchen mit unterschiedlichen Ansätzen, am Wachstumsmarkt rund um diese Bereiche teilzuhaben. Abhängig vom Einsatzgebiet und der Menge der zu archivierenden Informationen sollte man jedoch einige wichtige Unterschiede der Systeme beachten.

Aufgrund der jeweils verwendeten Datenbanktechnologie lassen sich zwei Archivierungskonzepte unterscheiden, die nachfolgend näher erläutert werden: Archivierung auf der Basis von RDBMS (Relational Database Management System) oder auf der Basis von Volltextdatenbanken.

Viele Dokumenten-Management-Systeme basieren auf den Grundkonzepten relationaler Datenbanken. Sie legen die zu archivierenden Dokumente in speziellen Datenbanktabellen ab. Externe Belege, also nicht unternehmensinterne Formulare, werden mit Hilfe von Scannern digitalisiert. Andere, innerhalb eines Unternehmens produzierte Dokumente wie Winword-Texte, Excel-Tabellen oder Spoolfiles, werden im File-System des jeweils verwendeten Betriebssystems oder als Blob-Felder (Binary Large Objects) gespeichert.

Die strukturierten Indexbegriffe, die das jeweilige Dokument charakterisieren und ein Wiederfinden nach beschreibenden Merkmalen sicherstellen, liegen als sogenannte Dokumentmetadaten ebenfalls in verschiedenen Datenbanktabellen. Sie sind meist kundenspezifisch generiert, was die Speichervielfalt und den -bedarf erhöht, aber nicht unbedingt einem schnelleren Wiederauffinden dient.

Zur Recherche nach beschreibenden Merkmalen eines Dokuments dient in der Regel SQL (Structured Query Language). Häufig werden die Dokumente als einzelne Dateien auf optischen Medien abgelegt. Ihr Speicherort wird in einer Datenbanktabelle des jeweils verwendeten Datenbank-Servers verwaltet.

Volltextdatenbanken hingegen verarbeiten sowohl strukturierte als auch unstrukturierte Informationen. Da der gesamte Text für die Volltextsuche vorliegen muß, ist es erforderlich, die eingescannten Texte mittels OCR-Software (Optical Character Recognition) zu entschlüsseln.

Anhand des Drei-Ebenen-Modells, das der Software Easy-Archiv zugrunde liegt, soll die Architektur eines volltextorientierten Archivierungs- und Retrieval-Systems erläutert werden.

Auf der Ebene der Dokumentenspeicherung werden sowohl Text- als auch Objektbestandteile (zum Beispiel digitalisierte Belege, Textverarbeitungsdateien oder Audio- und Videosequenzen) einer zusammengesetzten Information (Compound Document) in ihrer Gesamtheit in einer Containerdatei auf dem Speichermedium abgelegt.

Dies kann auf einer Festplatte, einem Raid-Array oder auf einem optischen Datenträger innerhalb einer Jukebox erfolgen. Zu einer revisionssicheren - also für Gerichte oder Finanzämter nachvollziehbaren - Langzeitspeicherung werden diese Dokumentencontainer in der Regel auf WORM- oder CD-Datenträgern abgelegt.

Dazu wird für jedes zusammengesetzte Dokument auf der Ebene der Dokumentenverwaltung ein Verwaltungsdatensatz erzeugt. Er enthält alle erforderlichen Informationen zur eigentlichen Identifikation eines Dokuments und zum aktuellen Aufenthaltsort innerhalb eines bestimmten Containers sowie weitere dokumentenspezifische Statusinformationen.

Alle zum schnellen Wiederauffinden notwendigen Informationen nach inhaltlichen oder strukturellen Merkmalen stellt die Ebene der Volltextverwaltung zur Verfügung. Sie ist weitgehend unabhängig von den beiden unterlagerten Ebenen, was einen flexiblen Austausch der jeweils aktuellen Volltexttechnologien gestattet.

Nach der Eingabe der Suchkriterien laufen alle zur Bildung der Dokumententrefferliste erforderlichen Rechenoperationen ausschließlich in den Datenbeständen der jeweils verwendeten Volltextverwaltung. Diese Daten sind in aller Regel auf einer schnellen Festplatte eines File-Servers oder bei sehr großen Datenbeständen auf einem entsprechend dimensionierten Raid-Array gespeichert, um die Geschwindigkeit der Recherche noch weiter zu steigern.

Erst nach der Auswahl eines gesuchten Dokuments aus der Trefferliste werden über die unterlagerten Ebenen Dokumentenverwaltung und -speicherung alle Informationen des Zieldokuments aus dem entsprechenden Container des Archivierungsmediums (zum Beispiel CD-Jukebox) gelesen und mit Hilfe eines Dokumenten-Viewers auf dem Bildschirm angezeigt.

Vielfältige Möglichkeiten zur Suche nach Dokumenten

Volltextbasierende Archivierungs- und Retrieval-Systeme bieten unterschiedliche Suchmöglichkeiten. Um die Anwendung zu vereinfachen, bieten nahezu alle am Markt verfügbaren Lösungen Formulardialoge an, in denen die Anwender die Suchwörter eingeben oder mit den Booleschen Operatoren "und", "oder", "nicht" verknüpfen können. Mit Hilfe der Abstands-, Glossar- oder Synonymsuche (Filterfunktionen) lassen sich Suchergebnisse beliebig erweitern oder verengen.

Was bedeuten diese unterschiedlichen Suchalgorithmen?

Abstands- oder Distanzsuche: Die Suchwörter müssen in einem bestimmten Abstand oder einer Reihenfolge zueinander stehen.

Glossar- oder Wörtersuche: Aus einer Liste aller erfaßten Wörter lassen sich die Suchbegriffe herausfiltern. Dies ist beispielsweise sinnvoll, wenn man die exakte Schreibweise des Begriffes nicht kennt.

Synonymsuche: Recherche nach verschiedenen Wörtern, die inhaltlich identisch oder ähnlich sind. Beispielsweise werden bei der Eingabe des Begriffs "Feiertag" auch Treffer wie "Ostern", "Weihnachten" oder ähnliches angezeigt.

Darüber hinaus gibt es die Möglichkeit der Makrorecherche. Wie andere Softwareprogramme können auch Makros Abläufe automatisieren. Beispielsweise lassen sich lange Suchwortketten mit zahlreichen Verknüpfungen zu einer Kurzabfrage zusammenfassen, die dann immer wieder gestartet werden kann - ohne daß die Abfrage jedesmal neu kreiert werden müßte.

Die Konzeptsuche gehört zu den neueren Entwicklungen im Bereich der Volltextdatenbanken. Dabei werden hierarchisch strukturierte Rechercheketten aufgebaut und gespeichert. Es ist möglich, wichtige Bestandteile zusätzlich mit prozentualen Relevanzfaktoren zu gewichten.

Mit diesem Verfahren lassen sich Prioritäten beschreiben, die ein entsprechender Einzelbegriff innerhalb der Begriffshierarchie besitzen soll. Die Speicherung solcher Rechercheketten bringt Arbeitserleichterungen und Zeitvorteile mit sich, die auch weniger fachkundigen Benutzern eines Systems gute Arbeitsergebnisse erlauben.

Die zu archivierenden Informationen lassen sich in kodierte (CI) und nicht kodierte (NCI) Informationen unterteilen. CIs gelangen per Datenübertragung in das Archiv, NCIs müssen erst mit einem Scanner erfaßt werden. Mittels OCR in kodierte Informationen umgewandelt, vermindert sich ihr Speicherbedarf.

Eine DIN-A4-Seite beispielsweise, die 1,5zeilig beschrieben ist, benötigt als kodierte Information (CI) nur etwa 2 KB Speicherkapazität. Bei der Archivierung als nicht kodierte Information (NCI) kann die benötigte Speicherkapazität abhängig von der Auflösung und möglichen Graustufen beziehungsweise Farben um ein Vielfaches höher sein. Bei 256 Graustufen und 300 dpi Auflösung beträgt sie zirka 4 MB.

Bei einer Massenbelegerfassung ist es sinnvoll, die Qualität der eingescannten Belege durch Zusatzmodule zu verbessern. Das erhöht die Erkennungsrate einer anschließenden OCR-Umwandlung erheblich und minimiert die Dateigröße. Gleichzeitig werden zum Beispiel schräg eingescannte Belege richtig ausgerichtet, falsch herum eingescannte Belege automatisch richtig gedreht, unerwünschte Linien, Grauschattierungen oder Schwarzzonen außerhalb des eigentlichen Bildbereichs entfernt und Textzeichen geglättet. Diese Optimierung läuft in mehreren Prozeßphasen ab, von denen jede definierte Aufgaben übernimmt.

Das Cold-Verfahren (Computer Output on Laser Disk) erleichtert die Archivierung von Dokumenten, die per DV erstellt wurden. Es konvertiert beliebige Drucker-Spool-Dateien mit den zu archivierenden Dokumenten in das richtige Importformat, was eine direkte Übernahme in das Archiv ermöglicht. Die Arbeitsprozesse Ausdrucken und Einscannen werden eingespart. So sind beispielsweise Rechnungsausdrucke lediglich für den Kunden, jedoch nicht mehr für die eigene Ablage oder Weiterverarbeitung notwendig.

Kurz & bündig

Die Papierberge in den Ablagen nehmen überhand - nicht zuletzt eine Folge der Computerisierung des Büros. Jetzt sollen dem Problem, das insbesondere Workflow-Installationen beeinträchtigt, DV-basierte Lösungen entgegenwirken. Immer mehr Unternehmen setzen auf eine digitale Speicherung aller Dokumente. Neben den klassischen datenbankbasierten Lösungen haben sich in den letzten Jahren Volltextdatenbanken etabliert. Bei einer überlegten Architektur erweisen sie sich als kapazitätssparende Speicher, die eine sehr flexible und komfortable Suche nach den Dokumenten gestatten.

*Nicole Körber ist Mitglied der Geschäftsleitung der Good NewsMarketing, PR und Consulting GmbH in Stockelsdorf.