Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

16.09.1988 - 

Anwender haben Zugriffsprobleme bei unformatierten Daten:

Kein DBMS ohne Text-Retrieval-System *Jürgen Harbarth ist zuständig für die Entwicklung von Text-Retrieval-Systemen bei der Darmstädter Software AG.

Text-Retrieval ist immer noch kein integraler Bestandteil von Datenbank-Management-Systemen: Somit haben DBMS-Anwender weiterhin ihre liebe Not mit dem Zugriff auf unformatierte Daten. Dabei müßte das jeweilige DBMS für eine entsprechende Schnittstelle nur um wenige Funktionen erweitert werden, so Jürgen Harbarth*.

Die Entwicklung von Datenbank-Management-Systemen (DBMS) trug wesentlich dazu bei, die Informationsbedürfnisse von Unternehmen, Verwaltungen und Forschungseinrichtungen zu befriedigen. Am Markt stehen heute DBMS zur Verfügung, die dem Verlangen nach Flexibilität und Datentransparenz ebenso gerecht werden, wie der Forderung nach technischer Leistungsfähigkeit insbesondere der Datenintegrität und der Performance.

Um den steigenden Informationsbedürfnissen wirklich zu genügen, müssen diese Datenbank-Management-Systeme neben operationalen, das heißt formatierten Daten auch "freie Texte", also unformatierte Daten flexibel verarbeiten können. Diese Fähigkeit besitzt jedoch kaum eines der vorhandenen Systeme.

Erschwerter Zugriff auf unformatierte Daten

Natürlich ist es kein Problem, unformatierte Daten rein physisch mit Hilfe eines Datenverwaltungssystems zu speichern. Der Zugriff auf diese Daten ist jedoch meist erschwert und ihr Informationswert damit gering.

Deshalb entstanden in der Vergangenheit verschiedene sogenannte "Text-Retrieval-Systeme", die diesen entscheidenden Nachteil "klassischer" Datenhaltungs- und Datenbank-Management-Systeme beseitigen sollten.

Bedauerlicherweise fehlt es fast allen dieser Text-Retrieval-Systeme an der unbedingt notwendigen Integration mit bereits vorhandenen Datenbank-Management-Systemen. Diese mangelnde Integration hat zur Folge, daß eine vernünftige Informationsgewinnung auf der vollständigen Datenbasis - bestehend aus formatierten und unformatierten Daten - eines Unternehmens oder eines Unternehmensbereiches kaum möglich ist.

Voraussetzung für eine effektive Informationsausnutzung ist also die Integration des Text-Retrieval-Systems in ein DBMS auf der Grundlage einer einheitlichen Datenbasis. Nun könnte man zu Recht einwenden, daß in der Vergangenheit eine derartige "Verheiratung" eines bekannten und vorhandenen DBMS mit einem Text-Retrieval-System zu einer "Text- und Datenbank" zwar durchaus wünschenswert, aber aus technischen Gründen kaum durchführbar war.

Tatsächlich haben Performance-Erwägungen eine derartige Implementierung verhindert. Wo dennoch ein DBMS als Träger eines Text-Retrieval-Systems benutzt wurde, war seine Verwendung häufig ausschließlich auf die physische Datenhaltung beschränkt.

Sinnvollerweise sollte die Implementierung eines "Frei-Text-Systems" alle Fähigkeiten eines DBMS zum leistungsfähigen Zugriff auf Daten auch zum Retrieval von unformatierten Daten nutzen.

Künftig müssen also die Verwaltung und insbesondere die Zugriffsmöglichkeiten auf formatierte und unformatierte Daten integriert werden. Das macht vom Standpunkt etwa eines "normalen" Anwendungsprogramms eine "einheitliche" Schnittstelle zu einem DBMS mit zusätzlichen oder integrierten Text-Retrieval-Funktionen erforderlich.

Der notwendige Umfang einer derartigen Erweiterung weicht kaum von den üblichen Funktionen eines DBMS ab, es handelt sich im wesentlichen um "Lese"- und "Update"-Funktionen. Auf dieser Grundlage käme als Denkansatz für eine Implementierung eine entsprechende Erweiterung einer standardisierten Datenbankabfragesprache oder aber einer datenbankorientierten 4 GL-Sprache in Frage.

Ein "Lese"-Zugriff auf einen gewünschten Wert aus einer Datenbank mit unformatierten Daten, zum Beispiel ein Wort, ist eine Operation, die sich wesentlich vom Zugriff auf ein formatiertes Feld unterscheidet. Der Benutzer einer entsprechenden Funktion sollte zum Beispiel im Rahmen eines Anwendungsprogramms in der Struktur und Gestaltung seiner Abfrage nicht vom diesem Unterschied beeinflußt werden.

Allerdings wird man nicht umhin können, auch innerhalb der Architektur einer umfassenden Datenbankabfragesprache gewissen methodischen Besonderheiten des "Frei-Text-Retrieval" Rechnung zu tragen. So ist bei einer sinnvollen Erfassung unformatierter Daten in aller Regel eine Strukturinformation in Form geordneter Wortmengen erforderlich. Ein oder mehrere derartige "Thesauri" müssen sowohl beim Erfassen (Invertierung) als auch beim Wiederauffinden (Retrieval) von "freien Texten" einbezogen werden.

Außerdem ist eine typische Abfrage auf einen Bestand unformatierter Daten von höherer Komplexität als eine vergleichbare Abfrage für ein formatiertes Feld. Das liegt zum Teil daran, daß hier mehrere Werte eines Feldes miteinander kombiniert werden können.

Typisches Beispiel ist Suche im Kontext

Ein typisches Beispiel ist die "Suche im Kontext", bei der in Text-Bereichen (Kategorien) nach benachbarten Begriffen recherchiert wird.

Bei einer Abfrage muß die Möglichkeit bestehen, einzelne Abfragen zusammenzusetzen oder sich auf vorangegangene Abfragen zurückzubeziehen. Auch die Trankierung oder Maskierung von aufzusuchenden Werten innerhalb eines "freien Textes" sind Funktionen, die einem operationalen DBMS üblicherweise unbekannt sind. Um allen diesen Forderungen gerecht werden zu können, hat sich bereits eine Art Abfragesprache entwickelt, die den meisten der heute vorhandenen "Text-Retrieval-Systeme" zumindest in ihren Grundzügen gemeinsam ist.

In diesem Sinne werden sicherlich syntaktische Bestandteile einer Datenbankabfragesprache geschaffen werden müssen, die speziell auf die Erfordernisse des "Frei-Text-Retrieval" zugeschnitten sind.