Sprachverarbeitung am Computer: Wie funktioniert das eigentlich?

04.03.1998

MÜNCHEN: Mehr als drei Milliarden Dollar werden im Jahr 2001 mit kontinuierlicher Spracherkennung weltweit umgesetzt - glaubt zumindest der US-Marktforscher John Oberteuffer. Da möchte man doch wissen: Woher kommt die Technologie, und wohin geht sie?Der Einsatz von sprachverarbeitenden und sprachverstehenden Systemen bringt eine Reihe von Vorteilen: Anstatt eine neue Technik erlernen zu müssen, kann der Benutzer mit dem Rechner ebenso wie mit einem menschlichen Gegenüber verbal kommunizieren. Zudem hat er - was bei vielen Tätigkeiten wichtig ist - Hände und Augen frei und ist bei entsprechender Ausrüstung mit einem Funkmikrofon nicht an einen festen Platz gebunden. Aber: Ein gesprochenes Kommando ist meistens mehrdeutiger als ein geschriebenes, so daß diktierte Texte grundsätzlich nachkorrigiert werden müssen. Zudem ist bei der Benutzung von sprachverarbeitenden Systemen darauf zu achten, daß der Umgebungslärmpegel nicht allzu hoch ist und die Spracheingabe durch den Benutzer gleichmäßig und ohne Stottern erfolgt. Gerade die Filterung von Unregelmäßigkeiten in der Spracheingabe bereitet neben kontextspezifischen Eigenheiten wie Wortbindungen und Endsilbenschlucken der Wissenschaft derzeit die größten Probleme.

Sprachverarbeitung hat im praktischen Anwendungsfall die verschiedensten Einsatzmöglichkeiten gefunden. Eine einfache, aber effektive Anwendung ist die Eingabe von Zahlen und Wortlisten, beispielsweise bei der Telefonauskunft. Im industriellen Fertigungsprozeß ist die sprachgesteuerte Maschinensteuerung inzwischen gang und gäbe. Durch sprachverarbeitende Systeme sind Mitarbeiter in der Qualitätskontrolle eines Automobilwerks schneller in der Lage, Fehler zu erkennen und direkt einem Protokollrechner mitzuteilen.

Der Einsatzmöglichkeiten sind viele

Eine delikatere Angelegenheit ist das Word-Spotting. Bestimmte Schlüsselwörter werden als lnitialreize für weitergehende Anwendungen verwendet. Durch die Konzentration auf ein kleines Vokabular benötigen diese Systeme wenig Rechenleistung. Typische Anwendungsgebiete sind die Flugsicherung oder das systematische Abhören von Telefonleitungen. Durch Word-Spotting läßt sich automatisch ein Gesprächsprotokoll einschalten, wenn bestimmte Wörter wie etwa "Bombe", "Geldtransfer", oder "Plutonium" während des Gesprächs fallen.

Im Bürobereich sind vor allem Textdiktier- und Erfassungssysteme interessant. Bestimmte Systeme erlauben darüber hinaus den Einbau ganzer Textpassagen auf ein Schlüsselwort hin. Der Aufruf "Standard-Krankenattest Hypochonder" leistet für einen praktizierenden Allgemeinarzt bestimmt gute Dienste. Sprachsysteme, die in einer anwendungsübergreifenden Benutzeroberfläche eingebettet sind, ermöglichen überdies die GUI-Steuerung via Mikro. Die Verarbeitung von Sprache am Rechner ist ungleich diffiziler als die von Texten. Wie zum Beispiel kommt das menschliche Gehirn dazu, die Lautfolge ,,ofen" mit der niedergeschriebenen Buchstabenfolge "o-f-e-n" zu assoziieren? Wohl nur durch Lernen. Der Mensch braucht Jahre Zeit, um zu lernen und um das Wesentliche herauszufinden. Nur deshalb ist er in der Lage, die über das Ohr aufgenommene Datenrate von etwa 200 Kbit/s auf vom Sprachverständnissinn vertretbare 100 bit/s zu reduzieren. Will man die Fähigkeiten des Menschen mit Hilfe eines technischen Systems realisieren, muß man dem Rechner ein Modell der Erfahrungen geben, wie es sich ein Mensch mit der Zeit antrainiert hat.

Eine gleichbedeutende Lautfolge, die von verschiedenen Personen gesprochen wird, klingt oft sehr verschieden. Und sogar die gleiche Person hat je nach Sprechgeschwindigkeit, Gesundheitszustand und Stimmungslage ein oftmals unterschiedliches Sprachbild. Gesprochene Sprache ist also durch zusätzliche Merkmale jenseits des reinen Sinninhalts für die rechnergerechte Verarbeitung aufgebläht. Also ist für die Weiterverarbeitung eine Merkmalsreduktion nötig. Dafür reichen je nach Anwendung pro Einzellaut etwa 30 bis 100 Einzelmerkmale aus.

Vor der Merkmalsreduktion muß das kontinuierlich aufgenommene Sprachsignal zeitlich unterteilt werden. Ein Sprachsignal ist etwa für die Dauer von 20 bis 40 Millisekunden stationär, ändert sich also während dieser Zeit nicht. Ein stationärer Zeitabschnitt wird digital gewandelt und dabei in etwa 20 Frequenzbereiche aufgefiltert. Danach erfolgt die Merkmalsreduktion auf typische Einzelkennzeichen im Frequenz-, Amplituden- und Zeitbereich, die man in einem sogenannten Merkmalsvektor zusammenfaßt. Ein oder mehrere Merkmalsvektoren entsprechen einem Grundlaut der Sprache, dem Phonem. Konsonantische Phoneme sind oftmals zweideutig, schwierig und oft nur über einen größeren zeitlichen Zusammenhang zu ermitteln. Als Stütze dienen die dazwischen liegenden Vokale, die relativ einfach feststellbar sind und sich anhand von nur zwei Frequenzen bestimmen lassen. Aber selbst bei Vokalen existieren Überlappungen, ein dunkles A bildet beispielsweise eine Überschneidung mit einem helleren O. Es muß also zusätzlich der zeitliche Zusammenhang und die von Mensch zu Mensch variierende Grundfrequenz berücksichtigt werden. Eine Reihe von Merkmalsvektoren wiederum ergibt eine Vektorkette, die es mit einer bestehenden Datenbasis zu vergleichen gilt. Hier taucht das nächste Problem auf: Wie erkennt ein Rechner, wo ein Wort beginnt und wo es endet? Die Lösung sind Pausen, die ein Sprecher einzufügen hat. Eine Zehntelsekunde reicht aus. Eine solche Zwischenpause stellt sich bei deutlichem, langsamen Sprechen automatisch ein. Um nun anhand einer Lautfolge ein entsprechendes Wort zu erkennen, haben die typischen Spracherkenner eine Vergleichsdatenbank, in der alle verwendeten Lautfolgen sind.

Der Computer "denkt" in Zusammenhängen

Beim Vergleich der gesprochenen Vorlage mit dem Muster muß das gesamte Vokabular durchforstet werden. Mit zunehmender Textlänge steigt folglich die benötigte Rechenleistung. Deswegen sind speziell hier gute Algorithmen und Verfahren gefordert. Im Handel erhältliche Spracherkenner nutzen in der Regel das sogenannte Hidden-Markoff-Modell. Es berechnet eine Zahl, die aussagt, wie wahrscheinlich eine Übereinstimmung ist. Dieses Verfahren ist sehr rechenintensiv und wird deshalb über spezielle Rechenverfahren abgekürzt - ein Kompromiß zwischen der Signifikanz der Wahrscheinlichkeitszahl und der Rechengeschwindigkeit. Zur Anpassung an den jeweiligen Sprecher benötigen diese Systeme eine mehr oder minder lange Trainingsphase.

Nach dem Durchlaufen des gesprochenen Textes durch einen Einzelworterkenner ê la Hidden-Markoff fallen meist mehrer nahezu gleich wahrscheinliche Wörter an. Eine Kontextprüfung, die sich über zwei oder drei benachbarte Worte erstreckt (Trigramme), wählt das wahrscheinlichste Wort aus. Die hierdurch erzielbare Trefferquote liegt bei gewöhnlichem, einfach strukturiertem Text bei über 97 Prozent. Eine nachgeschaltete Rechtschreib- und Grammatikprüfung gibt den Endschliff und ist in der Lage, Feinheiten wie Dehnungs- und Bindungsbeugungen bei Verben und Objekten zu berücksichtigen und die besonders im Deutschen nicht zu unterschätzende Groß- und Kleinschreibungsprüfung durchzuführen. Wird die Sprache jedoch anspruchsvoller und der Wortschatz exotischer, kann selbst das beste System kollabieren. IBM-Tests mit Texten des Titanic-Kolumnisten Max Goldt brachten beispielsweise durchweg unglückliche Ergebnisse.

Zur Startseite