Digitale Wandlung der Grundlaute

02.11.1999

So funktioniert Spracherkennung

MÜNCHEN: Spracherkennungssysteme unterteilen sich in zwei Gruppen: Die eine dient zur Steuerung von Maschinen durch sprachlich gegebene Befehle, die andere wird zur mündlichen Eingabe von zu schreibendem Text verwendet.

Diktiersysteme gehören bei entsprechender Ausstattung in die rechenintensivste Anwendungsklasse. Hier sind Verarbeitungsleistungen um die 20 Mips gefordert. Denn zunächst muß der Rechner eine Merkmalreduktion vornehmen, das individuelle Sprachbild quasi auf den reinen Sinninhalt reduzieren. Zuvor findet eine zeitliche Unterteilung des kontinuierlich aufgenommenen Sprachsignals statt. Dieses ist für die Dauer von 20 bis 40 Millisekunden stationär, ändert sich also nicht. Dieser Zeitabschnitt wird digital gewandelt und dabei in etwa 20 Frequenzbereiche gefiltert. Danach erfolgt die Merkmalsreduktion auf typische Einzelkennzeichen im Frequenz-, Amplituden- und Zeitbereich, die man in einem sogenannten Merkmalsvektor zusammenfaßt. Dieser entspricht einem Grundlaut der Sprache, dem Phonem. Konsonantische Phoneme sind oftmals zweideutig und nur über einen größeren zeitlichen Zusammenhang zu ermitteln. Als Stütze dienen die dazwischenliegenden Vokale, die relativ einfach feststellbar sind und sich anhand von nur zwei Frequenzen bestimmen lassen. Aber selbst bei Vokalen existieren Überlappungen, so daß der zeitliche Zusammenhang und die individuell variierende Grundfrequenz der Stimme berücksichtigt werden müssen. Eine Reihe von Merkmalsvektoren ergibt eine Vektorkette, die mit der bestehenden Datenbasis verglichen werden muß.

Mit wachsenden Texteinheiten steigt die Rechenleistung, gute Algorithmen und Verfahren sind gefordert. Ein solches ist die wenig verarbeitungsintensive dynamische Programmierung (Dynamic Time Warping), bei der das Muster über eine Anpassungsfunktion mit dem Textkorpus verglichen wird. Es wird diejenige Lautfolge ausgewählt, die die geringsten Ausschläge der Anpassungsfunktion verursacht und damit am ehesten mit der Datenbank übereinstimmt.

Ein weitaus rechenintensiveres, aber zu besseren Ergebnissen führendes Verfahren basiert auf Ketten von Übergangswahrscheinlichkeiten, dem sogenannten Hidden-Makroff-Modell. Im Handel erhältliche Spracherkenner gehen einen Mittelweg und kürzen dieses Modell über spezielle Rechenverfahren ab. Nach dem Durchlaufen des gesprochenen Textes durch einen Einzelwortkenner fallen meist mehrere nahezu gleichwahrscheinliche Wörter an. Eine Kontextprüfung, die sich über zwei oder drei benachbarte Wörter erstreckt (Trigramme), wählt das wahrscheinlichste aus. Die hierdurch erzielbare Trefferquote liegt bei gewöhnlichem, einfach strukturierten Text bei über 97 Prozent. Eine nachgeschaltete Rechtschreib- und Grammatikprüfung gibt den Endschliff. Wird die Sprache anspruchsvoller, kann selbst das beste System kollabieren. (mf)

Zur Startseite