Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

08.07.2005

Aus PDF-Texten wird Unicode

Die Münchner PDFlib GmbH hat die zweite Version des "Text Extraction Toolkit" (TET) herausgegeben, mit dem sich PDF-Dokumente als Unicode extrahieren lassen. Es wandelt nicht nur den Text um, sondern liefert auch Informationen über Fonts, einzelne Zeichen und Inhalte. TET ist eine Entwicklersoftware und kann als Komponente anderer Programme oder als Kommandozeilen-Tool eingesetzt werden. (ls)