Spracherkennungssysteme kommen auf leisen Pfoten weiter nach vorne

15.03.1996
MÜNCHEN/HANNOVER: Eines der technologischen Highlights der CeBIT heißt Spracherkennung. Programme, die mit verbalen Befehlen gesteuert werden und Software, die gesprochenen Fließtext in ASCII-Zeichen umsetzt, drängen immer stärker auf den Markt. Die Hersteller wollen allerdings vermeiden, daß es zu einer Trendüberhitzung kommt, wie das bei der Handschrifterkennung des Apple Newton der Fall war.Schritt für Schritt tastet sich die Spracherkennung in die Märkte vor. Zuerst waren es nur die Anbieter von Sprachsteuersystemen, die ihre Lösungen Kunden mit extrem hohem Telefonieraufkommen wie zum Beispiel Versicherungen oder Direktmarketing-Companies anboten. Diese Systeme wurden zu integrierten Call-Management-Lösungen aufgebohrt. Gleichzeitig wagte sich auch die kontinuierliche Spracherkennung in Form der beiden Diktiersysteme Dragon Dictate und IBM Voicetype an die Öffentlichkeit.

MÜNCHEN/HANNOVER: Eines der technologischen Highlights der CeBIT heißt Spracherkennung. Programme, die mit verbalen Befehlen gesteuert werden und Software, die gesprochenen Fließtext in ASCII-Zeichen umsetzt, drängen immer stärker auf den Markt. Die Hersteller wollen allerdings vermeiden, daß es zu einer Trendüberhitzung kommt, wie das bei der Handschrifterkennung des Apple Newton der Fall war.Schritt für Schritt tastet sich die Spracherkennung in die Märkte vor. Zuerst waren es nur die Anbieter von Sprachsteuersystemen, die ihre Lösungen Kunden mit extrem hohem Telefonieraufkommen wie zum Beispiel Versicherungen oder Direktmarketing-Companies anboten. Diese Systeme wurden zu integrierten Call-Management-Lösungen aufgebohrt. Gleichzeitig wagte sich auch die kontinuierliche Spracherkennung in Form der beiden Diktiersysteme Dragon Dictate und IBM Voicetype an die Öffentlichkeit.

Die diesjährige CeBIT ist für eine Reihe von Anbietern die Plattform, die Publikumswirkung ihrer Neuheiten zu testen. Philips präsentiert sein Dialogue System erstmals einer breiteren Öffentlichkeit, Siemens-Nixdorf implementiert ein Diktiersystem in seine neuen PCs, auch Compaq entwickelt zusammen mit dem Partner PureSpeech ein System, die DASA-Tochter VoiceFactory hat SUSI weiterentwickelt und es gibt einen neuen Anbieter im Markt für Diktiersysteme mit dem amüsanten Namen Kurzweil.

Philips als Technologieführer

Aufmerksame Leser kennen das Dialogue System von Philips bereits. Das Pflänzchen, das eine der größten nichtstaatlichen Forschungsbemühungen für diesen Markt darstellt, blühte bisher im Verborgenen. Wer die Telefonnummer 0241/604 020 in Aachen anruft, erhält dort Auskunft über die Bahnverbindungen der Deutschen Bundesbahn. Das wäre nichts besonderes, wenn dahinter nicht ein Dialogue System steckte, das die Sprache des Anrufers erkennt. Der Auskunftsuchende sagt beispielsweise einen Satz wie: "Ich möchte morgen um halb zehn von Frankfurt nach München fahren", und das System erkennt ihn, gibt ihn zur Korrektur wieder und wenn er bestätigt wurde, sucht der Rechner die Verbindung heraus.

Nach einigen Verständigungsschwierigkeiten zu Beginn läuft das System nach zwei Jahren kontinuierlicher Entwicklung so gut, daß die schweizerische Bundesbahn mit Philips ein Pilotprojekt ins Leben gerufen hat. Seit dem 22. Januar dieses Jahres wird das System im praktischen Einsatz von 20.000 ausgewählten Kunden der SBB ausführlich getestet. Auch die niederländische Telecom liebäugelt derzeit mit dem Philips-System.

In Halle 17, Stand F13, präsentiert Philips dieses System und seine anderen Spracherkennungsprodukte in größerem Rahmen der Öffentlichkeit. Neben dem Hochleistungssystem zeigen die findigen Holländer eine Systemplattform für den PC, die noch in diesem Jahr auf den Markt kommen wird. Auf Basis dieser reinen Softwareplattform, die auf Standard-PCs laufen soll, können Anbieter von telefonischen Dienstleistungen wie Hotlines, Kundenbetreuung oder Auskunfteien, Anruf-Management-Systeme einrichten, die fließend gesprochene Sprache beliebiger deutschsprachiger Anrufer erkennen.

SNI und Compaq wollen ebenfalls mitspielen

Nicht nur für Philips ist der PC die Hardware-Plattform, auf der die Spracherkennung laufen muß, wenn sie Chancen auf einen breiten Markt haben will. Seit kurzem bemühen sich mit Siemens-Nixdorf und Compaq zwei große PC-Anbieter darum, Spracherkennung in ihre Systeme zu integrieren. Bei SNI basiert das System auf einem PC vom Typ PCD-5H und einer Steckkarte. Auf dieser Steckkarte befindet sich ein neuronaler Prozessor, wie er auch im System Synapse Anwendung findet. Dieser Prozessor übernimmt die Rechenleistung bei der Erkennung und entlastet somit die Haupt-CPU. Das Sytem von SNI soll kontinuierliche Sprache eines beliebigen Sprechers erkennen und auf dem Markt weniger als 10.000 Mark kosten.

Ebenfalls mit neuronaler Technologie geht Compaq an die Spracherkennung ran. Im Juni letzten Jahres kaufte der Weltmarktführer für PCs Anteile am US-Unternehmen Pure-

Speech und entwickelt seitdem mit dem Partner an einem integrierten System für die Pressarios. PureSpeech wurde von Ben Chigier gegründet, einem früheren Mitarbeiter der Carnegie Mellon University, die die weltweit führende Rolle in der Erforschung der Spracherkennung spielt.

Noch in diesem Jahr will man das erste Komplettpaket präsentieren. Compaq-Boss Eckhard Pfeiffer sieht die Integration der Spracherkennung als Fortsetzung seiner Strategie, immer mehr Multimediakomponenten direkt in den PC oder die Tastatur einzubauen.

Konkurrenz für Dragon und IBM

Im Marktsegement Diktiersysteme für PCs haben bisher nur zwei Unternehmen eine Rolle gespielt: IBM und Dragon. Genauer gesagt eigentlich nur Dragon, denn die Spracherkennungsbemühungen bei Big Blue stammen aus einer Kooperation mit Dragon. Beide Systeme Dictate von Dragon und VoiceType von IBM kranken daran, daß sie intensives Training durch den Benutzer erfordern, bis sie auf seine Spracheigenheiten eingestellt sind. Der neue Herausforderer auf diesem Markt, Kurzweil Voice for Windows, rühmt sich, eben das nicht zu benötigen.

Susi, die digitale Rezeptionistin

Nahezu jeder Windows-Applikation kann beigebracht werden, daß sie

Voice aktiviert. Somit lassen sich Daten in Excel-Tabellen oder Word-Texte verbal eingeben. Das System verfügt über eine Wortschatz von entweder 30.000 oder 60.000 Wörtern. Zusätzlich lassen sich eigene Makros generieren, die bei einem bestimmten Befehl zum Beispiel ganze Absätze in Dokumente integrieren. Nicht für den privaten, sondern für den professionellen Einsatz im Call-Management wird die Spracherkennung bei "Susi" benutzt. Die "Eltern" von Susi, die Heidelberger VoiceFactory, haben ihr Kind weiterentwickelt. Aus Susi ist inzwischen ein integriertes Call-Management-System geworden, das Anrufe entgegennimmt, den Namen des Anrufers und sein Anliegen protokolliert, ihn nach seinen Wünschen sprachgesteuert weiterverbindet und die gesammelten Daten am Mitarbeiterplatz gleichzeitig mit dem Anruf auf den Bildschirm bringt.

Die Spracherkennung bei Susi gehorcht dem Schlüsselwortprinzip. Angenehmerweise kann Susi jederzeit mit einem neuen Kommando unterbrochen werden. Der Anrufer muß nicht immer auf das Ende einer Ansage warten, wenn er schon weiß, wie der nächste Befehl lautet. Trotz der Unterbrechung bleibt Susi stets höflich.

Im Rahmen der DASA-Spracherkennungsprodukte zeigt die VoiceFactory außerdem die "Cyberline". Hierbei handel es sich um Sprachsteuer- und -erkennungssysteme, die in jede beliebige Applikation eingebunden werden können. Das soll auch kleinen und mittelständischen Unternehmen den Weg hin zur Spracherkennung erleichtern.

Endziel liegt noch in der Ferne

Fazit: Die Spracherkennungsindustrie schafft es, den Markt kontinuierlich voranzutreiben, ohne daß ungesunde Euphorie entsteht. Inzwischen finden sich schon für eine ganze Reihe von Unternehmen und Berufsgruppen, die viel mit Standardwortschätzen arbeiten, interessante Spracherkennungsprodukte. Das Endziel, ein neues Benutzerinterface für den PC zu schaffen, ist allerdings noch fern. (pu)

Zur Startseite