Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

06.03.1998 - 

Spracherkennung auf dem Weg ins Alltagsgeschäft

"Die Zeit für die Maus ist abgelaufen"

06.03.1998

CW: Mit "Viavoice Gold" offeriert die IBM ein Produkt, das die fließend gesprochene Sprache in lesbaren Text umwandelt. Doch die Korrektheit der Texte läßt auch nach dem von der IBM empfohlenen einstündigem Training noch sehr zu wünschen übrig. Ist die Spracherkennungstechnologie noch nicht reif genug?

Nahamoo: Nun, die Trainingsphase ist nach dieser einen Stunde sicherlich noch nicht abgeschlossen. Nach den ersten Diktaten paßt sich das System lediglich dem Dialekt oder anderen akkustischen Eigenheiten des Redners an. Erst im Laufe der Zeit lernt das Produkt den jeweils speziellen Wortschatz des Anwenders und stabilisiert sich so. Das ist ein Prozeß, der relativ lange dauert. Mit unserer neuen Version "Viavoice Gold" bieten wir aber ein Utility an, mit dem sich auch bestehende Dokumente einlesen lassen.

CW: Wie lange muß das System denn nun effektiv trainiert werden, um eine akzeptable Erkennungsrate zu erzielen?

Nahamoo: Diese Frage ist nicht pauschal zu beantworten. Es geht doch in erster Linie darum, Texte mit Hilfe des gesprochenen Wortes schneller zu erfassen, als dies auf der Tastatur möglich ist. Ein schneller Tipper wird dementsprechend auch später bessere Ergebnisse erreichen als ein User, der mit der Tastatur nicht so gut zurechtkommt. Ebenso kommt es darauf an, für welchen Einsatz das Produkt bestimmt ist. Ein Journalist benötigt für seine Tätigkeit normalerweise einen wesentlich größeren Wortschatz als etwa ein Arzt, der eine begrenzte Anzahl von Fachbegriffen in das System diktiert.

CW: Heißt das, Viavoice Gold eignet sich momentan lediglich für bestimmte Berufssparten wie Mediziner oder Rechtsanwälte?

Nahamoo: Nein, aber diese Berufe profitieren derzeit am meisten von dem Produkt.

CW: Wie wollen Sie die Problematik mit Großraumbüros in den Griff bekommen, in denen der Geräuschpegel die Spracheingaben per Mikrofon unmöglich macht?

Nahamoo: Dies ist kein echtes Problem mehr. Es ist nur noch eine Frage der Zeit, bis moderne Mikrofone mit jeder Geräuschkulisse zurechtkommen.

CW: Und der Mitarbeiter, der den ganzen Tag in das System spricht und seinem Kollegen dadurch die Konzentration raubt?

Nahamoo: Sicher wird es auch in Zukunft Einsatzgebiete geben, in denen sich der Einsatz von Viavoice Gold nicht unbedingt lohnen wird.

CW: Wohin führt der Weg in Zukunft?

Nahamoo: Der Markt mit Spracherkennung wird in sehr unterschiedlichen Bereichen boomen. Sämtliche Office-Applikationen wie etwa E-Mails, To-do-Listen oder aber das Erstellen simpler Notizen sowie großer Texte werden künftig die Spracherkennung unterstützen. Außerdem wird sich die Sprachtechnologie im Telefonbereich durchsetzen. In der US-amerikanischen TK-Industrie laufen bereits Experimente wie das Name-Dialing. Dabei wird dem System per Telefon ein Vor- und Nachname oder auch die Adresse des gewünschten Gesprächspartners durchgegeben, und das System sucht und wählt automatisch dessen Telefonnummer.

CW: Wird sich künftig eher das PC-basierte Diktieren von Texten oder aber das Steuern von Geräten und Betriebssystemen durch Sprache etablieren?

Nahamoo: Beides. Zwei Kategorien von Spracherkennungstechnologien werden sich behaupten: Bulk-Data-Entry sowie Transaction-Processing. Zum Bulk-Data-Entry gehört das Diktieren von Texten und das Ausfüllen von Formularen. Rund um das Transaction-Processing - also dem Steuern von Fenstern oder ganzen Betriebssystemen - wird jedoch sicherlich ein weitaus größerer Markt entstehen. Die Zeit für die Maus ist abgelaufen. Telefone dürften in diesem Szenario jedoch die größte Rolle spielen. Ich denke beispielsweise an das Banking von zu Hause mit Hilfe des Telefons. Bald wird es Finanzinstitute geben, deren DV-gestützte Spracherkennungssysteme Anrufer an seiner Stimme identifizieren. Anschließend läßt sich der aktuelle Kontostand abfragen oder eine Überweisung tätigen.

CW: Läßt sich das nicht einfacher und auch übersichtlicher über das Internet abwickeln?

Nahamoo: Dazu benötigt der Anwender aber einen Computer. Darüber hinaus sind auch Einsatzgebiete wie Reisebuchungssysteme oder aber Wetterinformationssysteme denkbar.

CW: Aber solche Angebote wie Wetterinformationen oder Straßenzustandsberichte werden heute doch bereits von der Telekom oder dem ADAC bewerkstelligt. Wozu brauche ich da noch ein DV-gestütztes System?

Nahamoo: Leute nutzen aktuelle Möglichkeiten schlichtweg noch nicht. Das liegt zum einen an den Operatoren, die häufig überlastet sind. Oder denken Sie an die umständliche Prozedur, einen Namen und eine Telefonnummer in ein Mobiltelefon einzugeben. Das dauert doch eine halbe Ewigkeit. Auch der Internet-Zugriff per Sprache im Auto ist vorstellbar, etwa wenn E-Mails vorgelesen werden sollen. Die Spracherkennung, darüber bin ich mir sicher, wird sich vehement durchsetzen.

CW: Wie sehen Sie den Markt mit Spracherkennungsprodukten? Mit Dragon Systems und Kurzweil sind Big Blue ernstzunehmende Konkurrenten gewachsen.

Nahamoo: Der Markt ist groß und wächst enorm. Je mehr Player kommen, desto besser ist es für die Technologie.

CW: Wie sieht es mit den technologischen Anforderungen aus? Viavoice Gold erfordert einen Pentium-PC mit 166-Megahertz-CPU. In Unternehmen stehen doch häufig noch 486-basierte Rechner, die sich nicht eignen.

Nahamoo: Deshalb tüfteln wir auch an einem Client-Server-Konzept von Viavoice. Wir haben einen Prototypen einer Client-Server-basierten Spracherkennungstechnologie, die Client-seitig auf 486er PCs läuft, während das Herzstück der Applikation auf dem Server residiert.

CW: Ein Traum vieler Menschen ist es, in der eigenen Landessprache mit Geschäftsleuten aus dem Ausland kommunizieren zu können. Wird es eine Lösung geben, die Sprache automatisch übersetzt, um sie anschließend dem Gesprächspartner am anderen Ende der Welt in seiner Sprache vorzulesen?

Nahamoo: Wir entwickeln die Basis, nämlich die Spracherkennung. Andere Hersteller programmieren die Übersetzungssoftware. Eine Verschmelzung beider Technologien ist allerdings noch nicht vorauszusehen. Das wird zweifelsohne noch einige Jahre dauern.