Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

27.08.1999 - 

Wegen proprietären Dateiformats

Office 2000 eignet sich nicht als XML-Werkzeug

Von Fotis Jannidis* Als Neuerung von "Office 2000" kündigte Microsoft die Unterstützung für den Internet-Standard Extensible Markup Language (XML) an. Viele Anwender hofften daher, nicht mehr länger die Nachteile proprietärer Dateiformate in Kauf nehmen zu müssen. Allerdings erweist sich nach dem Erscheinen des Büropakets, daß es sich zum Erstellen strukturierter Dokumente nur wenig eignet und den Datenaustausch mit anderen Anwendungen nicht wesentlich erleichtert.

Die bisherigen Office-Programme der verschiedenen Hersteller haben bekanntlich gleich mehrere Defekte aufzuweisen: Der Austausch mit anderen Textverarbeitungen ist zumeist mit Informationsverlusten verbunden, die Dateiformate ändern sich bei fast jeder Version. Entsprechend unzugänglich sind bald die früheren Files, und die heillose Mischung aus inhaltlichen und typografischen Informationen macht es fast unmöglich, Dateien intelligent auszuwerten. Insgesamt also unhaltbare Zustände für eine Informationsgesellschaft, deren wertvollstes Gut, kaum entstanden, wieder zerstört wird. Die Begeisterung über XML und die damit verbundenen Standards resultiert nicht zuletzt aus dem Versprechen, daß diese Probleme behoben werden können.

Da die Verwendung von XML nicht immer ganz einfach ist, erhofften sich die Beobachter mit Office 2000 eine leicht zu benutzende Schnittstelle. Inzwischen weiß man, daß XML in Office 2000 nur eine sehr geringe Rolle spielt. Bezeichnenderweise taucht der Begriff in der Hilfefunktion nicht einmal auf. Statt dessen hat man sich in Redmond ein neues Dateiformat ausgedacht, das in den Menüs der deutschen Ver- sion als "Web-Seite" bezeichnet wird.

Da das erste Auszeichnungselement in jeder solchen Web-Datei "" heißt, möchte man zunächst glauben, daß es sich hierbei auch um HTML handelt. Die ersten Zweifel entstehen jedoch, wenn man sie mit dem HMTL-Parser des W3-Konsortiums auf ihre Korrektheit überprüfen will.

Der Syntaxprüfer moniert neben einigen kleineren Problemen vor allem die Angaben zu den Namensräumen (Namespaces). Diese sind in einem Format notiert, das - unter wesentlicher Mitarbeit von Microsoft - als Ergänzung zum XML-Standard vorgeschlagen wurde.

Handelt es sich bei Office-2000-Dokumenten also um XML-Dateien? Ganz sicher nicht. XML-Parser, mit denen man die Gül- tigkeit von XML-Dokumenten überprüft, steigen ziemlich schnell aus, wenn man sie mit einem Web-Dokument aus Office 2000 füttert, weil sogar einige Minimalvoraussetzungen nicht erfüllt sind. So sind zum Beispiel nicht alle Attributwerte in Anführungszeichen gesetzt.

Wer Informationen strukturieren will und diese nachher auch problemlos mit anderen Anwendungen bearbeiten möchte, scheitert nicht nur am eigenwilligen Format von Microsofts Web-Seiten. Bei Auszeichnungssprachen definiert man gewöhnlich eine Strukturvorlage für alle Dokumente eines Typs - in XML nennt man sie Document Type Definition (DTD). Diese Strukturvorlage beschreibt, welche Elemente ein Text enthalten kann oder muß, sowie die erlaubte Reihenfolge der Elemente. Auf diese Weise läßt sich zum Beispiel sicherstellen, daß alle Geschäftsbriefe einer Firma Felder mit dem Namen des Kunden und mit den Firmenprodukten enthalten. Ein Suchprogramm kann diese Angaben gezielt für die Erstellung von Interessenprofilen auswerten. Auch ein einheitliches Layout der Briefe im Sinne einer Corporate Identity läßt sich so gewährleisten.

Da XML in Office 2000 nur verwendet wird, um programmspezifische Informationen und Dateieigenschaften abzuspeichern, gibt es keine Möglichkeit, eigene Strukturvorlagen zu verwenden. Immerhin lassen sich in einer Textverarbeitung Druckformate für inhaltliche Informationen zweckentfremden. Makros können diese Formatierungsschablonen nachträglich in eine bestimmte XML-Auszeichnung übersetzen. In Winword 2000 gibt es aber immer noch keine Möglichkeit zu überprüfen, ob ein Dokument nur die vorgeschriebenen Elemente eines Druckformats enthält oder ob zusätzliche Formatierungen vorhanden sind.

Ebensowenig kann der Anwender sicherstellen, daß eine verbindliche Gruppe von Textauszeichnungen verwendet und eine bestimmte Reihenfolge eingehalten wird. Kurzum, alle Mechanismen zum Aufbau von strukturierten Dokumenten in größeren Arbeitszusammenhängen fehlen. Auf den Web-Seiten von Microsoft werben Data Channel und Interleaf für Zusatzprogramme zu Office 2000, die dem Paket jede Funktionalität zur Erstellung strukturierter Daten verleihen sollen. Man könnte aber auch der Meinung sein, daß derartige Funktionen bereits Bestandteil des Basisprodukts sein sollten - immerhin ist von einem professionellen Werkzeug die Rede.

Trotz der genannten Unzulänglichkeiten: Letztlich handelt es sich bei Office-2000-Dokumenten doch um HTML-Dateien. Deshalb stellt sich auch die Frage, wie gut die Bürowerkzeuge das Web-Publishing unterstützen. Dabei muß man berücksichtigen, daß Microsoft nicht HTML-Editoren Konkurrenz machen will, sondern den Web-Standard den Bedürfnissen eines Office-Pakets angepaßt hat. Das ehrgeizige Ziel für das neue Format lautete: Dateien, die im neuen Office-Web-Format abgespeichert wurden, sollen in WWW-Browsern der neuen Generation möglichst getreu wiedergegeben werden. Zugleich soll man solche Dateien wieder in die Office-Anwendung zurücklesen können - und zwar ohne Informationsverlust.

Die Reise muß bei Office beginnen

Dieser "Roundtrip" funktioniert fast problemlos, wenn die Fahrt von Office aus beginnt. Formatangaben lassen sich in einer Datei abspeichern, auch wenn sie im WWW nicht unterstützt werden. Beim Wiedereinlesen in die Ursprungsanwendung sind sie weiterhin vorhanden. Microsoft macht sich die Tatsache zunutze, daß die gängigen Browser sehr nachsichtig sind: Sie ignorieren einfach alle Auszeichnungselemente, die sie nicht kennen. Bei entsprechender Einstellung warnt Winword den Anwender, daß bestimmte Formatierungen im Browser nicht dargestellt werden können. Dies gilt beispielsweise für mehrspaltigen Text.

Problematischer ist es allerdings, wenn die Rundreise im HTML-Format beginnt, da Winword jeden HTML-Text seinem Web-Format anpaßt. In HTML eingebettete Informationen (Scripts oder Server Side Includes), die andere Anwendungen benötigen, können auf diese Weise verlorengehen - Server-Scripts in Active Server Pages zählen auch dazu.

Balance zwischen Standard und proprietärem Format

Microsoft versucht mit seinem neuen Internet-Format den Balanceakt, sich einerseits an den offenen Standards zu orientieren, andererseits das Format aber so zu gestalten, daß es effektiv nur noch mit Microsoft-Produkten verarbeitet werden kann. Dies gilt auch für die Darstellung der Seiten: So werden in Web-Dateien, die man mit der Tabellenkalkulation Excel erstellt hat, die Werte in HTML-Tabellen abgespeichert und über ein Active-X-Control angezeigt. Kann diese Komponente nicht installiert werden, dann werden bloß die HTML-Tabellen angezeigt. Powerpoint-Präsentationen lassen sich erheblich einfacher als vorher ins Internet stellen, aber nur im Internet Explorer bleiben die Animationen erhalten.

Für Microsofts neues Web-Format wurde HTML mit Elementen aus anderen Spezifikationen angereichert - Definitionen, die teilweise von einer Standardisierungsorganisation verabschiedet wurden, teilweise auch noch zur Diskussion vorliegen und sich deshalb ändern können. Neben den HTML-Elementen, den Dateninseln in XML (siehe Kasten auf Seite 15) und den Angaben zu den Namensräumen werden zur Notation der Formatierungen Cascading Style Sheets (Elemente aus den Versionen CSS 1 und CSS 2) verwendet. Wo die vorhandenen CSS-Elemente nicht ausreichten, um an spezifischen Office-Formatierungen festzuhalten, hat man einfach neue hinzugefügt.

Microsoft unterstützt also die Internet-Standards nicht, sondern verwendet sie. Von Unterstützung kann man nur sprechen, wenn der Anwender mit Hilfe des Programms das Zieldokument in HTML oder XML nach seinen Vorstellungen umsetzen und dann mit einem anderen Programm weiterverarbeiten kann. Das ist mit Office 2000 aber kaum machbar, da typografische und inhaltliche Informationen nach Microsoft-Regeln im Format der Standards notiert werden. Der aus Redmond kommende Cocktail folgt selbst keinem Standard, ist aber als Präsentationsformat für die aktuelle Generation von WWW-Browsern durchaus geeignet, da die Dokumente, insbesondere im Internet Explorer 5, teilweise erstaunlich getreu wiedergegeben werden.

XML in Office 2000

Der neue Standard zur Beschreibung von Textauszeichnungen, die Extended Markup Language (XML), wird in Form kleiner XML-Inseln innerhalb des neuen Internet-fähigen Dateiformats von "Office 2000" verwendet. So zum Beispiel, um die Dateieigenschaften von Winword oder die Mappeninformationen von Excel zu speichern. Document Type Definitions für die XML-Inseln wurden inzwischen von Microsoft veröffentlicht. Auffällig ist, daß Microsoft für die Beschreibung solcher Metadaten nicht auf den bestehenden Standard des Resource Description Framework (RDF) zurückgegriffen hat, sondern eigene Markierungen verwendet.

Wordart und ähnliches wird mittels des neuen Grafikformats Vector Markup Language (VML), das XML-konform ist, abgespeichert - für Browser, die VML nicht unterstützen, steht ersatzweise eine Grafik im üblichen Graphics Interchange Format (GIF) zur Verfügung.

Excels Pivot Tables werden ebenfalls mittels XML abgespeichert. Außerdem wird die Information darüber, welche Dateien zu einem Dokument gehören, in einer eigenen XML-Datei abgelegt. Makros, OLE-Objekte, Grafiken und Text etwa sind in Winwords Binärformat alle in einer Datei abgelegt, im Web-Format dagegen in verschiedenen Dateien. Ein Steuer-File im XML-Format notiert ihre Zusammengehörigkeit.

Sowohl das Datenformat VML als auch das Verfahren, XML-Inseln in HTML-Code einzuschließen, sind Vorschläge des Desktop-Monopolisten an das W3C, die allerdings noch nicht verabschiedet sind und sich jederzeit noch ändern können.

*Fotis Jannidis arbeitet als freier Autor in München.