Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

26.07.2007

Extraktion von Metadaten

Die National Library of New Zealand hat ein Open-Source-Werkzeug freigegeben, mit dem sich Metainformationen aus einer Reihe von Dateitypen auslesen lassen. Das "Metadata Extraction Tool" kann beschreibende Informationen sowohl aus diversen Dokumentformaten als auch aus Grafiken oder Sound-Dateien auslesen. Bei diesen Metadaten handelt es sich zumeist um Angaben zum Autor, Urheberrecht, Entstehungsdatum oder um Schlagwörter. Das Tool der Neuseeländischen Nationalbibliothek unterstützt unter anderem MS-Office-Dokumente, PDF, MP3, WAV und HTML.

Der ursprüngliche Zweck der Software bestand darin, archivierungswürdige Metainformationen auszulesen und in einem XML-Format zu speichern. Es lässt sich aber überall dort einsetzen, wo derartige Daten in großen Mengen, etwa auch in der Batch-Verarbeitung, extrahiert werden müssen. Das gilt zum Beispiel für Dokumenten-Management-Projekte.

Die Software ist in Java geschrieben und läuft unter Windows und Unix. Für das Microsoft-System steht eine grafische Benutzerführung zur Verfügung, für Unix ein Kommandozeilen-Tool. (ws)