Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

30.05.1986

IBM experimentiert mit Sprache auf dem PC AT, aber:Fließtext wird noch nicht verarbeitet

STUTTGART (CW) - Ein experimentielles Spracherkennungssystem auf der Basis des IBM-Mikrocomputers AT haben IBM-Entwickler jetzt im Forschungslaboratorium Yorktown Heights/USA vorgestellt. Das System arbeitet sprecherabhängig und benötigt zwischen den Worten kurze Pausen.

Das System stellt IBM zufolge Texte, die in natürlicher Sprache eingegeben werden, auf dem Bildschirm des PC dar, so daß sie anschließend wie herkömmlich eingegebene Texte überarbeitet, gespeichert, ausgedruckt oder über elektronische Post verschickt werden können. Bei dieser Umsetzung nutze das System ein 5000 Wörter umfassendes Vokabular und erreiche eine Zuverlässigkeit von über 95 Prozent.

In den PC AT wurden zwei in Yorktown Heigths entworfene Hochgeschwindigkeits-Subsysteme integriert. Ihr Kern besteht jeweils aus einem neuen Mikroprozessor-Chip, der in den IBM-Labors in der Schweiz und in Frankreich entwickelt wurde. Mit diesem PC AT und seinen beiden Subsystemen, bestehend aus je drei Einschubkarten, schrumpfte - bei gleicher Leistung - die bisher erforderliche, raumfüllende Hardware in ihrem Zentralrechner und ihren drei Mikroprozessoren auf die Größe des Tischrechners.

Bei dem von den Wissenschaftlern eingesetzten Mikroprozessor-Chip handelt es sich um einen "Digital Signal Processor" (DSP). Er kann nach IBM-Angaben 30 Millionen Operationen in der Sekunde durchführen. IBM stellte 1984 ihr erstes Sprachkennungssystem mit Wörterbuch und Echtzeitverarbeitung vor, das noch die Rechenleistung eines Großrechners erforderte. Mitglieder des IBM-Forschungsteams unter Leitung von Dr. Frederik Jelinek überarbeiteten in der Folge ihr Verfahren zur Spracherkennung, so daß sie nun durch die DSP-Subsysteme im PC AT Spracherkennungssystem ausgeführt werden können. Dies führte zu einer deutlich höheren Effizienz: Das System von 1984 benötigte einen Speicher von 6 Millionen Zeichen, das jetzt vorgestellte System auf der Basis des PC AT beschränkt sich auf 640 000 Zeichen.

Der PC AT "lernt" die Sprachcharakteristiken eines Sprechers, indem dieser dem System ein kurzes Dokument "vorspricht". Während der Systembenutzer nun anschließend in sein Kopf- oder freistehendes Mikrophon spricht und zwischen den einzelnen Worten kurze Pausen macht, erscheinen die Wörter und Sätze auf dem Bildschirm des PC.

Die Arbeitsweise des PC AT Spracherkennungssystems basiert auf einem neuartigen statistischen Ansatz, der ebenfalls im Thomas J. Watson Research Centre in Yorktown Heights entwickelt wurde. Der Methode liegt eine begrenzte Zahl von elementaren Bausteinen zugrunde, aus denen Wörter - phonetische Symbole - zusammengesetzt werden. Dieser Weg erwies sich laut IBM erfolgreicher als der Versuch, Tausende von individuellen Wörtern unabhängig voneinander einzugeben oder das menschliche Spracherkennen zu imitieren.

Sobald ein Sprecher Laute äußert, wählt das System anhand eines statistischen Modells, das aus der Analyse von 25 Millionen Wörtern der Bürokorrespondenz abgeleitet worden ist, sogenannte "Wort-Kandidaten" aus. Beim Weitersprechen werden neue "Wort-Kandidaten" ausgewählt, während die ursprünglichen Kandidaten im Licht dieses neuen Bestands ausgewertet werden. Innerhalb von ein bis zwei Sekunden ist dieser Prozeß beendet, das wahrscheinlich richtige Wort gefunden und am Bildschirm angezeigt.

Diese kontextorientierte Fähigkeit befähigt nach Ansicht der IBM-Forscher das PC AT Spracherkennungssystem, zwischen Wörtern zu unterscheiden, die zwar ähnlich klingen, in ihrer Bedeutung jedoch differieren - wie im Englischen etwa "Know" und "no" oder im Deutschen "daß" und "das". Satzzeichen werden ebenfalls verbal eingegeben, indem der Sprecher beispielsweise "Punkt" oder "Komma" sagt.

Die zukünftigen Entwicklungsarbeiten am PC AT Spracherkennungssystem sollen sich darauf konzentrieren, das Wörterbuch zu erweitern, die Unempfindlichkeit gegenüber störenden Nebengeräuschen zu verbessern und auf die jetzt noch notwendigen Pausen zwischen den einzelnen Worten verzichten zu können.