Durchbruch der Spracherkennungssoftware lässt auf sich warten

02.11.1999

MÜNCHEN: Systeme zur Spracherkennung sind der moderne Traum vom Fliegen. Der Wunsch, gesprochene Befehle in materielle Aktionen umzusetzen, ist zumindest genauso alt. Wir müssen es aber wohl noch eine Zeitlang beim Träumen belassen: Der moderne Mensch scheitert nach wie vor an der technischen Umsetzung.Spracherkennungssoftware, wie wir sie heute kennen, gibt es seit knapp zehn Jahren, seit etwa vier Jahrzehnten wird in diesem Bereich geforscht. Immer mehr Anbieter drängen mit neuen Produkten auf den Markt, doch durchschlagenden Erfolg konnte bislang niemand verbuchen. Selbst Vorreiter der Szene, wie IBM und Dragon Systems, warten noch auf den großen Boom und halten sich wohl auch deshalb in bezug auf konkrete Umsatzzahlen bedeckt.

Bei den Herstellern herrscht ungebrochener Optimismus

Dennoch, es herrscht ungebrochener Optimismus: "Der Konsumentenmarkt ist nun bereit für diese Technologie", beurteilt Ron van den Bos, Präsident und CEO von Philips Speech Processing, die Marktchancen, "nun sind die PCs stark genug, um mit der neuesten Spracherkennungstechnologie produktiv arbeiten zu können". Hier spielt aber nicht nur die enorme Leistungssteigerung bei der Speicherkapazität und damit Schnelligkeit der Rechner eine Rolle, sondern auch das erweiterte Frequenzvolumen der Mikrofone. Den Weg für eine große Kundenbreite ebnet aber vor allem die derzeit günstige Kostenentwicklung.

Tatsächlich bescheinigen Analysten dem Markt riesige Wachstumschancen: So prognostiziert IDC für 1999 zwar nur ein geringes Plus, doch in den darauffolgenden zwei Jahren sollen die europaweiten Umsätze von 10 Millionen auf über 100 Millionen Dollar steigen. Laut Tern Systems Inc. erwirtschaftete der Markt für sprachgesteuerte Telekommunikationsanwendungen 1997 Einnahmen von 245 Millionen Dollar, das Marktforschungsinstitut erwartet allein in diesem Bereich eine Steigerung der Einnahmen bis auf rund 810 Millionen Dollar im Jahr 2001.

Tilo Schlumberger, Inhaber der Aska Software in Sindelfingen, hat sich auf den Vertrieb von Spracherkennungssystemen spezialisiert und glaubt, einen der Gründe für das zurückhaltende Verhalten der Kunden zu kennen: das Jahr-2000-Problem. "Derzeit müssen doch die meisten in Hardware investieren. Danach wird bei der Software alles nachgeholt." Und das natürlich auch beim Thema Spracherkennung, denn "das Interesse von Seiten der Unternehmen und Consumer ist groß. Die Nachfrage steigt wöchentlich."

Geräuscharme Umgebung ist ein muss

Dennoch hatte Spracherkennungssoftware bislang eher einen schlechten Ruf. Daß die Systeme nicht optimal funktionierten, lag aber meist daran, daß die Anwender die Arbeitsvoraussetzungen nicht optimal erfüllten: Grundsätzlich müssen die zu erfassenden Texte in einer möglichst geräuscharmen Umgebung in das mitgelieferte Kopfbügelmikrofon gesprochen werden. Bei älteren Programmen war es noch notwendig, nach jedem Wort eine Pause einzulegen, die modernen Versionen erlauben das kontinuierliche Diktieren in normalem Tempo und natürlichem Rhythmus.

Bei allen Programmen ist aber von jeher eine Gewöhnung der Software an Stimme und Sprechweise des Anwenders nötig. Diese "Lernphase" beansprucht zwischen einer halben und bis zu mehreren Stunden. Danach ist die individuelle Sprechweise des Anwenders gespeichert und kann eben auch nur von diesem genutzt werden.

Das Basisvokabular der Programme umfaßt im Durchschnitt 60.000 Wörter, meist finden sich weitere 400.000 im Referenzlexikon. Für einzelne Berufsgruppen bieten die meisten Herstellern zusätzlich spezifische Lexika an. Neue Begriffe können durch mehrmaliges Vorlesen hinzugefügt werden, der Käufer bekommt also ein "lernfähiges" Produkt.

Die größte Schwierigkeit der automatischen Spracherkennung besteht darin, daß ein und dasselbe Wort nie ein zweites Mal identisch ausgesprochen werden kann, so sehr sich der Sprecher auch bemüht. Psychischer und physischer Zustand beeinflussen die Aufnahme ebenso wie der sprachliche Kontext, Qualität des Mikrofons und die Hintergrundgeräusche. Durch letztere kann der Frequenzverlauf so stark verändert werden, daß eine Erkennung unmöglich ist.

Spezielle Berufsgruppen profitieren jetzt schon von dieser Software

Um störende Einflüsse zu minimieren, arbeitet beispielsweise IBM derzeit an einem System, das mit Unterstützung einer Videokamera, die auf den Mund des Sprechers gerichtet ist, die Erkennung der ausgesprochenen Wörter erleichtern soll. Denn neben der reinen Akustik bekommt ein Gesprächspartner in der Regel auch durch Gestik und Mimik zusätzliche Informationen, die der Maschine bislang vorenthalten blieben.

Die derzeitige Spracherkennungssoftware eignet sich vor allem für spezielle Berufsgruppen. Bei Produktionskontrollen, Lagererfassungen, aber auch in Arztpraxen oder Anwaltskanzleien wird in hohem Maße eine klar definierte, spezialisierte und terminologisch standarisierte Sprache angewendet. Auch behindertengerechte Arbeitsplätze profitieren zunehmend von den Systemen: Neben der reinen Texterfassung bieten die meisten Programme nämlich auch die phonetische Steuerung an, so daß sich beispielsweise Anwendern mit Sehstörungen neue Möglichkeiten der Kommunikation eröffnen. Weitere mögliche Einsatzgebiete bestehen in Aufgaben, bei denen der Benutzer Hände und Augen freihaben sollte, Umgebungen mit schwacher Beleuchtung, sprachgesteuerten Informationskiosken und der Auskunft.

Die Deutsche Lufthansa in Kassel arbeitet beispielsweise mit "ALF", der "Aktuellen Lufthansa Fluginformation", einem Spracherkennungssystem von Philips. ALF gibt Auskunft über Abflugzeiten und Gates von etwa 300 Flughäfen in aller Welt, übernimmt damit etwa fünf Prozent der rund 20.000 täglich eingehenden Anrufe. Bei RTL gibt die elektronische Wetterauskunft Wise nach Nennung des Ortsnamens die dort herrschende Wetterlage bekannt.

Der Dialog mit dem PC

Auch Dialoge mit dem Computer sind bereits möglich, wenn dieser mit entsprechender Hard- und Software ausgestattet ist. Ist die Spracherkennung mit einer Ausgabefunktion gekoppelt, werden Fehlermeldungen und Dialogboxen vorgelesen. Dies ist vor allem bei behindertengerechten Arbeitsplätzen ein großer Vorteil.

Wenn man den Anbietern der Spracherkennungssysteme Glauben schenken darf, werden die Produkte in naher Zukunft zum Alltag gehören. Wir werden mit unseren PCs kommunizieren, Haushaltsgeräte mit der Stimme steuern, die Programme werden Routinearbeiten wie Telefonzentrale oder Auskunft übernehmen. Zudem könnte die Stimme als Mittel der Chiffrierung eingesetzt werden, quasi als phonetischer Fingerabdruck.

Obwohl man sich durchaus fragen darf, ob alles sein muß, was möglich ist: Demnächst soll die ursprünglich für das israelische Militär entwickelte Software "Truster", eine Art Lügendetektor, auf den Markt kommen. Diese analysiert die Stimmfrequenz der Sprecher und "merkt", wenn etwas nicht stimmt. Es kann zwischen allgemeiner Aufregung, Unsicherheit und Lügen unterscheiden und kommentiert die Stimmungslage auch noch. Voraussetzung ist allerdings ein Einführungsgespräch mit möglichst unbelasteter Stimmfrequenz. Bleibt die Frage, wozu ein Privathaushalt diese Software benötigt. Angenehmer ist da schon die Aussicht, daß mit dem Einzug der Spracherkennungssoftware vielleicht die Großraumbüros verschwinden, damit jeder im stillen Kämmerlein seinem PC mal gehörig sagen kann, was er zu tun hat. (mf)

Spracherkennungssoftware wird künftig zum Büroalltag gehören - glauben Hersteller und Analysten.

Zur Startseite