Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

15.08.1980 - 

IBM-Fortschritte bei der Spracherkennung:

Redefluß muß nicht gestoppt werden

STUTTGART (rs) - An der Spracherkennung wird in vielen Labors gearbeitet. Während bei beschränktem Vokabular (rund 250 Wörter; vgl. CW 23/80, Seite 20) die Erfolge beachtlich sind, müssen die Probleme der zusammenhängenden Rede noch gelöst werden. Zur Zeit muß ein Sprecher noch eine deutliche Pause zwischen den gesprochenen Wörtern einhalten, um dem Rechner das Wortende deutlich zu machen. In den IBM-Labors ist man der kontinuierlichen Spracherkennung auf der Spur (vgl. CW 16/80, Seite 1). Die folgende Information des Unternehmens beleuchtet den "Status quo".

Die IBM-Wissenschaftler bildeten Sätze aus einem 1000 Wörter umfassenden Vokabular und lasen sie mit normaler Sprechgeschwindigkeit vor. Die Sätze wurden mit einer Genauigkeit von 91 Prozent erkannt und ausgedruckt.

"Die Ergebnisse dieses Laborversuchs sind ein ermutigender Schritt auf einem enorm schwierigen Weg, der eines Tages zur Erkennung unbegrenzter kontinuierlicher Sprache durch Computer führen kann", meinte Dr. Frederick Jelinek, der die Forschungsgruppe für kontinuierliche Spracherkennung am IBM Thomas Watson Research Center in Yorktown-Heights, New York, leitet.

Dr. Jelinek stellt sich die ideale Spracherkennungsmaschine so vor, daß beim Sprechen einer Person in ein Mikrofon die Sprache sofort und unmittelbar umgesetzt wird. Eine Einrichtung zur Sprachbereinigung berichtigt sofort Fehler und nimmt eine laufende Überarbeitung vor.

Keine künstlichen Pausen

IBM arbeitet jetzt an der Erkennung von kontinuierlich gesprochenen Worten eines beschränkten Vokabulars, wobei es weder künstliche Pausen zwischen den einzelnen Wörtern noch andere unnatürliche Beschränkungen gibt. Die Versuche zur Spracherkennung werden mit einem IBM Rechner-System /370, Modell 168 und High-Fidelity-Geräten in einem schalltoten Raum durchgeführt. Man spricht dabei in ein Mikrofon und nach der Phase der Sprachanalyse erscheinen die erkannten Wörter auf dem Bildschirm eines Datensichtgerätes.

Bei den bisherigen Versuchen hatte man sich auf nur einen Sprecher beschränkt, doch betont Dr. Jelinek, daß die von seiner Gruppe entwickelten Methoden der computer-gestützten Sprachanalyse so entworfen wurden, daß sie sich an andere Sprecher anpassen können.

"Unsere Arbeitsweise beruht nicht auf intuitiven Versuchen und daraus abgeleiteten Regeln, sondern auf der statistischen Erfassung aller am Sprechen beteiligten Prozesse: Satzbildung, Betonung und Vorverarbeitung des Sprachsignals", sagte er.

Das Problem ist der Redefluß

In der Umgangssprache folgt ein Wort schnell und kontinuierlich auf das andere, so daß der Computer innerhalb des Redeflusses eine Möglichkeit haben muß, das Ende eines Wortes und den Beginn des nächsten zu erkennen. Das Problem ist das gleiche wie beim Hören einer unbekannten Fremdsprache, aus der man einzelne Wörter isolieren möchte.

Ein weiterer Aspekt der Identifikation von Worten ist die "Koartikulation", bei der die Aussprache eines Wortes durch die vorausgehenden oder nachfolgenden Wörter beeinflußt wird, wie es im gesprochenen Englisch sehr häufig vorkommt.

Man hat schon früher Computerprogramme zur Erkennung von künstlich vereinfachten (im Gegensatz zu natürlich-normalen) Sprachen entwickelt, die sich recht gut bewährt haben und mit einem Vokabular von 250 Wörtern gute Ausgabewerte auf Kosten der Wortauswahl erreichen. So kann ein Sprecher zu Beginn eines Satzes den Artikel "der" sagen und ist dann für das zweite Wort im Satz auf 10 Substantive beschränkt, für das dritte Wort in Satz auf 10 Verben etc.

Im Gegensatz dazu stützen sich die von Dr. Jelinek beschriebenen Arbeiten auf ein 1000 Wörter umfassendes Modell-Vokabular in natürlich-normaler Sprache, die aus Wörtern und Sätzen bestehen, wie sie von Patentanwälten bei der Patentanmeldung auf dem Gebiet der Laserstrahlen verwendet werden. Die von Anwälten gebrauchte Sprache ist zwar keine Gebrauchssprache im üblichen Sinn, aber es ist auch keine künstlich vereinfachte Sprache, die speziell für die Spracherkennung mit Computern entwickelt wurde. Deshalb wird sie auch von Dr. Jelineks Gruppe als natürlich-normale Sprache bezeichnet. Bei den IBM Versuchen erhält der Computer die Anweisung, jeden Satz entsprechend einem zulässigen Satzmodell zu erkennen.

Das verwendete Modell umfaßt alle Sätze des Textes einer Patentanmeldung über Laserstrahlen und bildet den Wortschatz des 1000-Wörter-Vokabulars. Die Sätze bestehen durchschnittlich aus 25 Wörtern.

Natürlich gesprochene Sätze sind normalerweise länger und in der Wortauswahl variabler als die durch künstliche Mittel erzeugten, so daß die Wahrscheinlichkeit nicht korrigierbarer Fehler zunimmt", sagt Dr. Jelinek.

Der Patenttext über Laserstrahlen wurde gewählt, weil er aus einem großen Bestand leicht verfügbarer Texte stammt, der bereits in maschinell lesbarer Form vorliegt. Der Gesamttext umfaßt allerdings ein Vokabular von 12 000 Wörtern, das für Spracherkennungsversuche zu umfangreich ist. Eine statistische Untersuchung ermittelte die 1000 am häufigsten verwendeten Wörter. Sie erlauben aber immer noch recht komplizierte Sätze.

Dr. Jelinek stellte fest, daß das Vokabular allein zur Bewertung der Komplexität einer bestimmten Spracherkennungsaufgabe nicht ausreicht. Vielmehr wird die Schwierigkeit durch die Anzahl der Sätze bestimmt, die sich aus diesem Vokabular möglicherweise bilden lassen.

"Gäbe es eine Sprache, die nur eine einzige erlaubte Regel zur folgerichtigen Aneinanderreihung von Wörtern zu einem Satz besitzt - selbst wenn dieser Satz 1000 Wörter enthielte - dann wäre eine vollkommene Spracherkennung leicht, weil die Sprache dann nur einen Satz umfassen würde", sagte er.

Keine Modellsätze

Durch sein Programm "weiß" der Computer, daß bestimmte den Grundregeln der englischen Grammatik entsprechende Aneinanderreihungen von Wörtern wahrscheinlicher sind als andere. Zum Beispiel folgen auf einen bestimmten Artikel mit höherer Wahrscheinlichkeit ein Substantiv und ein Verb eher als ein weiterer Artikel. Das trägt dazu bei, das Vergleichen und Zuordnen von Sprachmustern durch den Computer auf ein vertretbares Maß zu reduzieren.

Der Computer leitet die Informationen über Verknüpfungswahrscheinlichkeiten aus 900 Übungssätzen ab. Sie wurden mit einer Zufallsmethode aus allen Sätzen gefiltert, die 1000 Wörter aus der ausgewählten Patentanmeldung enthalten. Das heißt aber nicht, daß der Computer nur 900 Sätze erkennt. Tatsächlich wählt der Sprecher im Verlauf eines Versuchs bewußt Sätze, die nicht in den 900 Modellsätzen enthalten und vom Computer noch nicht analysiert worden sind.

Das ideale Spracherkennungsgerät sollte sprecherunabhängig sein, die Sprache eines jeden Sprechers ohne vorherige Lernphase erkennen und auch jeden Schall ignorieren, der nicht vom Sprechen stammt. Die Versuche zur Erkennung kontinuierlicher Sprachen finden bei IBM in einem schalltoten Raum statt, in dem der Computer auf die Sprachmuster eines bestimmten Sprechers trainiert wird indem dieser die 900 Übungssätze in ein Mikrofon spricht. Das dauert etwa zwei Stunden.

Die Zeit, in der der Computer die Eingabe erkannt und dargestellt hat beträgt zur Zeit 100 Minuten, wenn ein Sprecher 30 Sekunden für einen bestimmten Satz braucht. Durch technische Verbesserungen und parallel arbeitende Spezialrechner wird aber dieses Verhältnis verbessert werden können, so daß die IBM-Wissenschaftler damit rechnen, im Laborversuch die Verarbeitung in Echtzeit im Laufe der 80er Jahre zu erreichen.

"Ich glaube, daß ein Prototyp innerhalb einiger Jahre möglich sein wird. Er wird vielleicht in der Lange 1000 oder 2000 Wörter zu erkennen und wird anstatt zwei Stunden Training mit dem Sprecher nur 15 Minuten brauchen", sagte er. "Aber selbst dann muß man sich wohl fragen, ob ein Mensch, der das Gerät benützt, mit dem vergleichsweise kleinen Vokabular auskommen wird."

Spektrale Zeitreihen

Bei den IBM Versuchen digitalisiert ein Prozessor die Schwingungen der menschlichen Stimme, indem diese 20 000 mal pro Sekunde abgetastet werden. Die so erfaßten Werte werden zu je 1000 gesammelt und durch sogenannte diskrete Fouriertransformation mathematisch verarbeitet. Dadurch werden charakteristische Muster, die spektralen Zeitreihen, erzeugt. In jeder Sekunde werden 100 solcher Zeitreihen gebildet, und der Computer vergleicht sie mit den 200 Modelltypenreihen, die vorher während des Trainings durch die Ansage der 900 Übungssätze gespeichert worden sind.

Auf der Grundlage dieses Vergleichs ordnet der Prozessor jede spektrale Zeitreihe einer de r 200 möglichen Modelltypen zu, die den Lauten entsprechen, die das ursprüngliche Wort bildeten. Ein weiteres Programm: Der linguistische Dekodierer vergleicht die geordneten Sprachmuster mit wahrscheinlichen Wortfolgen, bis eine passende Übereinstimmung für eine gesamte Reihe besteht.

Natürlich ist dieser Prozeß im gegenwärtigen Stadium noch keineswegs perfekt. Dr. Jelinek ist aber überzeugt davon, daß der Lösungsansatz der IBM erfolgreich sein wird.