Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

Personalisierung und gezielte Auswertung von Content


24.12.1999 - 

Mit XML können Firmen ihr Wissen besser nutzen

MÜNCHEN (ws) - Die Extensible Markup Language (XML) ist dabei, sich als Standard für den Datenaustausch zu etablieren. Mindestens genauso wichtig aber wird die Markup-Sprache für die Aufbereitung, Auswertung und das Publizieren von Dokumenten. Unternehmen können auf diese Weise vorhandenes Wissen besser nutzen oder auch am Information Commerce teilhaben.

In den 50er und 60er Jahren waren Computerlinguisten noch sehr optimistisch hinsichtlich der maschinellen Verarbeitung von natürlichsprachlichen Texten. Diese Zuversicht ist inzwischen weitgehend einer Ernüchterung gewichen. Computerprogramme können bis heute nicht zuverlässig die syntaktische Korrektheit von Sätzen überprüfen, geschweige denn Zugang zu deren Bedeutung finden. Entsprechend reduzierten sich die lautstark angekündigten Knowledge-Management-Strategien großer Hersteller zumeist auf Marketing-Getöse. Da gelten Links für den Online-Chat mit den Dokumentenautoren oder die fragwürdige Sortierung von Suchergebnissen nach Relevanz schon als zentrale Funktionen.

Das Konzept hinter der Standard Generalized Markup Language (SGML) oder der davon abgeleiteten XML sieht deshalb vor, daß Verfasser ihre Texte mit Hilfe von expliziten Auszeichnungen semantisch qualifizieren, bevor sie diese für eine intelligente Weiterverwertung nutzen können. Derartige Metainformationen (in Form von "Tags") lassen sich nämlich von Programmen gut verarbeiten. Ausgewiesen werden so Bedeutungen von Inhalten (<Vorname>, oder <Temperatur>) und strukturelle Informationen, die häufig konventionellen Charakter haben und in Printmedien meist typographisch hervor-treten (<Kapitel>, <Dachzeile> oder ). Aufgrund der Trennung von Inhalt und Layout bei XML sollten Angaben über die Darstellung des Dokuments in einem bestimmten Medium nicht auf diese Weise gekennzeichnet werden (fett, unterstrichen etc.), sondern mittels Stylesheets erfolgen.

Durch XML-Auszeichnungen aufgewertete Dokumente eröffnen Unternehmen neue Chancen im Umgang mit vorhandenem Wissen.

Als besondere Vorteile gelten die Möglichkeit zu intelligenten Abfragen, die Personalisierung von Inhalten und die Unabhängigkeit der Texte von bestimmten Zielmedien.

Amerikanischen Untersuchungen zufolge verschwenden Wissensarbeiter bis zu 20 Prozent ihrer Zeit mit der Suche in einem Überangebot an Informationen. Die für unstrukturierte Inhalte angebotene Volltextsuche kann zwar alle gewünschten Dokumente finden, aber nicht den Wust an unbrauchbarem Material ausschließen. Dagegen lassen sich in entsprechend feinkörnig ausgezeichneten XML-Dokumenten gesuchte Informationen gezielt auf einen bestimmten Kontext eingrenzen. Beispielsweise könnte sich eine Suche auf alle "Meier" konzentrieren, die im Briefkopf eines Dokuments vorkommen. Überhaupt lassen sich Recherchen bedeutungsmäßig einengen, indem auf XML-Markierungen Bezug genommen wird. Anstatt eine IT-Fachpublikation mit einer Volltextsuche nach "Tools AND Olap" zu durchstöbern und jede Menge unbrauchbarer Treffer zu erhalten, ließen sich in gut aufbereiteten Inhalten gezielt alle Artikel eruieren, in denen Inhalte nach dem Muster <tool type="olap"> ausgewiesen wurden.

Dokumentstruktur erlaubt gezielte Abfrage

Der gezielte und schnelle Zugriff auf bestimmte Einheiten des Dokuments erfolgt, indem dessen Struktur in einer Baumform dargestellt wird. Anwendungen können über das standardisierte API Document Object Model (DOM) auf den Dokumentenbaum zugreifen (siehe CW 42/99, Seite 17). Aber auch die vom Xpath-Standard genutzte Notation für die Adressierung von Textabschnitten macht sich diese hierarchische Repräsentation zunutze. Xpath bildet die Basis für weitere XML-bezogene Techniken, darunter Xlink, Xpointer oder die XML Query Language (XQL, siehe http://metalab.unc.edu/xql). Eine XQL-Abfrage könnte nicht nur alle Autorennamen aus einer Bibliografie extrahieren. Bei entsprechend markierten Dokumenten ließe sich diese Abfrage auf alle jene Schriftsteller einengen, deren Buch in die Kategorie "Krimi" fällt. Ungeahnte Möglichkeiten ergeben sich, wenn Mitarbeiter oder Kunden Abfragen nutzen können, um spezifische Informationen aus großen Dokumentbeständen zu neuen Texten zu kombinieren.

Eine kreative Verwertung von Dokumenten, die deren Autoren vielleicht gar nicht vorhergesehen haben, bieten auch die erweiterten Link-Mechanismen von XML. Xlink befindet sich derzeit beim W3-Consortium im Stadium des "Working Draft" und geht weit über die Möglichkeiten von HTML-Querverweisen hinaus. Da Links den Adressierungsmechanismus von Xpath nutzen, können sie auf bestimmte Elemente eines Zieldokuments verweisen, ohne daß dieses wie bei HTML dafür bearbeitet werden muß. Informations-Broker könnten daher beispielsweise Kataloge aus Querverweisen zusammenstellen, die sich auf ganz bestimmte Dokumentabschnitte richten, obwohl sie dort keine Schreibrechte besitzen. Zudem kann eine XML-Referenz gleich auf mehrere Ziele zeigen. Dieses Feature eröffnet neue Möglichkeiten im E-Commerce, beispielsweise für Textilhändler, um zueinander passende Kleidungsstücke auf diese Weise zu verknüpfen.

Gut aufbereiteter Content erlaubt Benutzern nicht nur, aktiv nach bestimmten Daten zu suchen, sondern sich Inhalte nach speziellen Interessen filtern zu lassen. Die Masse an Informationen im Web bewog die großen Portale wie Yahoo oder Netcenter, ihren Besuchern auf Basis von Benutzerprofilen eine individuelle Sicht auf das Angebot zu geben. Die Möglichkeiten zur Personalisierung von gut strukturiertem XML-Content gehen über eine grobe Kategorisierung von Dokumenten mittels Schlagworten hinaus. Zum einen können Anbieter mit Hilfe des Resource Description Framework (RDF) ihre Dokumente detailliert beschreiben. Bei RDF handelt es sich um eine weitere XML-Anwendung, die vom W3C empfohlen wurde. Deshalb gelten für diese Metainformationen die gleichen Recherche- und Auswahlmöglichkeiten wie für die Dokumente selbst. RDF freilich läßt sich nicht nur für XML-Dateien, sondern beispielsweise auch für die Beschreibung von HTML-Seiten nutzen.

Zum anderen läßt XML abhängig von Benutzerprofilen nicht nur die Wahl zwischen Anzeigen oder Ausblenden eines ganzen Dokumentes. Die Markup-Technologie erlaubt vielmehr individuelle Sichten auf einzelne Texte. So könnten sich Produktdokumentationen sowohl an den Kundendienst als auch an die Marketing-Abteilung richten. Allerdings wäre zweitere nicht an technischen Details interessiert, die für den Service aber von Bedeutung sind. Entsprechend ließen sich die als technisch markierten Passagen für diejenigen ausblenden, die ein Profil auf Basis von "Marketing" nutzen. Einige Publishing-Werkzeuge nutzen dieses Feature bereits, beispielsweise "Epic" von Arbortext. Interessant sind solche maßgeschneiderten Sichten auch bei mehrsprachigem Content, der dann für den jeweiligen Benutzer in seiner Landessprache angezeigt wird. XML reserviert für die Zuordnung von Elementen zu einer bestimmten Sprache das Attribut "xml:lang".

Diese benutzerspezifische Aufbereitung von XML-Dokumenten erfolgt in der Regel auf Basis von XSL Transformations (XSLT), das kürzlich als W3C-Empfehlung verabschiedet wurde. Diese Technologie erlaubt über frei definierbare Regeln die Konvertierung von XML-Dokumenten in eine andere XML-Struktur oder in andere Ausgabeformate. So entsteht im Rahmen der Open-Source-Vereinigung "Apache Software Foundation" das Tool "FOP", das XML-Dokumente und ihre in Stylesheets hinterlegten Formatierungen in Adobes PDF-Format konvertieren kann. Von IBM existiert ein Tool namens "TeXML" zur Ausgabe von XML-Daten in der Seitenbeschreibungssprache Tex (http://www.alphaworks.ibm.com/tech/ texml).

Aufgrund der großen Unterstützung von XML in der Software-Industrie werden derartige Werkzeuge für alle möglichen Ausgabeformate auf den Markt kommen - egal für welches Zielmedium. XML eignet sich deshalb als ideales Zwischenformat für die medienneutrale Speicherung von Dokumenten. Trotz der rudimentär vorhandenen oder angekündigten XML-Unterstützung bei Web-Browsern wird die Markup-Sprache deswegen vor allem auf dem Server zum Einsatz kommen. Dort erfolgen die komplexen Auswertungen des Contents und dessen Konvertierung in andere Fomate. Für die Präsentation der Inhalte im Web wird HTML auch weiterhin dominieren. Dies ist nicht nur ein Zugeständnis an die vorherrschenden Web-Technologien: Bei solchen bewußten Konvertierungen in "dümmere" Formate ist schon die Rede von "semantischen Firewalls", weil Unternehmen keinen Einblick in aufwendig erstellte Inhalte geben wollen. Diese bilden die Grundlage für alle möglichen Dienstleistungen, für die professionelle Internet-Nutzer zukünftig auch bereit sein werden, Geld auszugeben.

Einstieg in XML ist mit Aufwand verbunden

Bis Firmen aber ihr Wissen in einer derart verwertbaren Form vorliegen haben, müssen sie einige Hürden überwinden. Dazu zählt natürlich die Umstellung auf XML-Publishing für all jene, die Dokumente verfassen. Eine solche beschränkt sich nicht auf die Einführung entsprechender Software, sondern umfaßt auch aufwendige Analyseprozesse, auf deren Grundlage zukünftige semantische Markierungen erst festgelegt werden.

Da aber in den meisten Firmen schon große Bestände an Texten in schlechter nutzbaren Formaten vorliegen, stellt sich häufig auch die Frage, ob derartige Inhalte nachträglich aufbereitet werden sollen. Dies ist im allgemeinen mit hohen Kosten verbunden, da diese Prozesse kaum automatisiert werden können. Jürgen Lumera vom Münchner Systemhaus SPX präsentierte auf der Konferenz XML ''99 den Entwurf für ein Framework, das die Anreicherung von Legacy-Daten mit XML-Metainformationen zumindest unterstützen soll.

Wegen des Aufwands, den diese nachträgliche Aufbereitung verursacht, kann es für viele Firmen von Vorteil sein, schon bald Dokumente mittels XML auszuzeichnen - auch wenn einige XML-bezogene Standards noch nicht verabschiedet sind und Tools, mit deren Hilfe XML-Content seinen Nutzen erst richtig entfalten kann, noch weitgehend fehlen.