Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

23.04.1999 - 

Fachverlag bereitet Loseblattwerke für Online-Publikation auf

HTML bringt komplexe Dokumente ins Internet

Verlage und andere Inhaltsanbieter stehen oft vor dem Problem, wie sie komplexe Dokumente für die Veröffentlichung im Internet aufbereiten können. Die Weka Baufachverlage (BFV) in Augsburg haben sich für die Hypertext Markup Language (HTML) entschieden, um ihre Loseblattsammlungen online zu bringen. Friedrich Koopmann* beschreibt das Projekt.

Loseblattwerke werden meist vierteljährlich auf den neuesten Stand gebracht. Da stapeln sich bei vielen Nutzern die Aktualisierungspakete. Auch aus diesem Grund sind viele Abonnenten für elektronische Informationssysteme aufgeschlossen. Nach Erhebungen der Baufachverlage sind bei fast 90 Prozent der Architekten, Ingenieure, Handwerker und Immobilienmakler die technischen Voraussetzungen zum elektronischen Abruf von Informationen gegeben; 60 bis 70 Prozent der potentiellen Nutzer sind auch bereit dazu. Die neuen Medien reduzieren den Aktualisierungsaufwand erheblich: Je nach Datenmenge oder Präferenz läßt sich entweder die CD austauschen oder das Dokument via Internet auf den neuesten Stand bringen. Wenn es darum geht, umfangreiche Texte für elektronische Medien effizient zu verwalten, wird normalerweise eine Document Type Definition (DTD) entwickelt. Das heißt, aus dem Normenvorrat der Standard Generalized Markup Language (SGML), dem grundlegenden Web-Sprachstandard, werden die für den jeweiligen Anwendungsbereich benötigten Gestaltungselemente definiert. Eine eigene DTD zu entwickeln war Weka aber zu aufwendig. Um die Loseblattwerke, die den Kern des Geschäfts bilden, elektronisch aufzubereiten, entschieden sich die Augsburger für den Internet-Standard HTML, der auf der Grundlage von SGML entstand.

Dieses Format wirft durch seine Orientierung am Layout allerdings Probleme bei der Abbildung logischer Strukturen auf, wie sie im Aufbau von Gesetzeswerken oder Handwerksordnungen enthalten sind. Die Loseblatt-Spezialisten fanden dafür eine pragmatische Lösung, indem sie sich für eine restriktive Handhabung der Hypertext-Sprache entschieden. "Wir haben HTML gewissermaßen ausgemistet", erläutert Thomas Roth, der als technischer Koordinator das Projekt Digitale Produktion leitet. Der Sprachumfang wurde auf die notwendigen Elemente und Attribute eingeschränkt. So entfallen beispielsweise Auszeichnungen, die das Layout betreffen. Gleichzeitig wird der Gebrauch von Start- und Ende-Markierungen über das normale Maß hinaus ausgedehnt, um den Text in klar abgegrenzte Einheiten zu zerlegen. Jeder Paragraph eines Gesetzestextes wird so zu einer eigenen Einheit, objektorientiert gesprochen, zu einem "Document Container". Diese Elemente werden anschließend mit dem Redaktionssystem "Schema-Text" des Nürnberger Softwarehauses Schema nach objektorientierten Methoden weiterbearbeitet.

Die Übersetzung der ursprünglichen Word-Datei in HTML erfolgt mit dem Shareware-Programm "RTF to HTML" von Chris Hector, das durch eigene vor- und nachgeschaltete Verarbeitungskomponenten ergänzt wurde. Letztere sorgen dafür, daß die Struktur der HTML-Datei auf die oben dargestellte Weise bereinigt wird. Dieser Text wird in das Redaktionssystem übernommen und dabei einem der dort angelegten Dokumenttypen - Gesetze, Normen, Kommentare etc. - zugeordnet. In Schema-Text werden eventuelle Strukturfehler erkannt und bereinigt. Die ungefähr fünf Mitarbeiter in der technischen Herstellung, in der Regel Verlagskaufleute, arbeiten laut Roth gerne mit dem System, weil dieses "den bestehenden Abläufen eingepaßt werden kann und nicht die Arbeit um das System herum neu organisiert werden muß".

Durch das Redaktionssystem wird jede Informationseinheit, sprich der kleinste inhaltlich abgeschlossene Textabschnitt, als Objekt gespeichert und erhält seine definierte Stellung im Gesamtgefüge des Loseblattwerks, das sich in Form einer Baum- oder Knotenstruktur am Bildschirm darstellen läßt. Das Herstellen von Bezügen, sprich das Verlinken der Texte, erfolgt vollständig auf grafischem Weg. Dazu muß etwa vom Gesetzeskommentar aus nur der entsprechende Paragraph des Gesetzestextes innerhalb der Baumstruktur ausgewählt und der Link gesetzt werden. "Das System ist so leicht verständlich", berichtet Roth, "daß es kein Problem darstellt, für das Verlinken studentische Hilfskräfte einzusetzen. Eine schriftliche Kurzanweisung reicht aus. Spezielle Kompetenz ist auf der inhaltlichen Ebene gefordert - bei der Verschlagwortung und dem Setzen zusätzlicher Links zu anderen Werken."

Wenn die Metainformationen zum Werk, insbesondere die Schlagwort-Indizes, erfaßt und Links gesetzt sind, steht das Werk für die Ausgabe in beliebigen Medien bereit. Die von Schema-Text aufgebaute HTML-Datei kann sowohl für eine Druckausgabe des Werkes als auch für die Bereitstellung auf CD-ROM oder im Internet verwendet werden. Im gleichen Arbeitsgang wird also die Datengrundlage für neue und alte Medien erstellt.

Das HTML-Format sieht Roth als für dieses Single-Source-Publishing besonders geeignet an, da es das Standardformat im Internet darstellt. Weitere Vorteile von HTML: Es ist unter Druckdienstleistern allgemein als Eingangsformat etabliert und fungiert als Standardformat für Retrieval-Systeme, wie sie von den Dienstleistern für elektronische Medien verwendet werden. Auch ein Wechsel zu XML als möglichem neuen Internet-Standard gestaltet sich unproblematisch, da die von Weka erarbeitete HTML-Verwendung an der XML-Deklaration orientiert ist und Schema-Text XML ebenso wie SGML unterstützt.

Die BFV übernehmen nach und nach die einzelnen Werke ins elektronische Produktionsverfahren. Zur Zeit werden aus den insgesamt rund 150 Loseblattwerken etwa 25 000 Seiten (20 Prozent) für elektronische Produkte und Papierdruck in der neuen Umgebung eingerichtet. Diejenigen Leser, die weiterhin die Druckform bevorzugen, stellen keinen Unterschied fest. Auf CD-ROM entfalten die Werke aber erheblichen Zusatznutzen, wie Roth erklärt: "So läßt sich etwa zu Kommentaren schnell der Gesetzestext einblenden, wo sonst umständlich geblättert werden muß.

*Friedrich Koopmann ist freier Autor in München.