Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

18.12.1981 - 

Spracheingabe-Methode zur direkten Datenerfassung:

Kommunikation mit dem Rechner über CSE

Durch die Möglichkeit, Informationen in mündlicher Form mit dem Computer auszutauschen, geht ein langgehegter Wunsch des EDV-Anwenders in Erfüllung. Im Bereich der Spracheingabe haben die Spracherkennungsgeräte einen Standard erreicht, der es erlaubt, sie unter kommerziellen Gesichtspunkten einzusetzen.

Wie bei den optischen Zeichenerkennungsgeräten erfüllen auch sie die Forderung nach direkter Erfassung der Daten am Ort ihres Entstehens. Unter Spracheingabe verstehen wir die Eingabe von Daten per Sprache in den Computer. Dabei wird das gesprochene Wort durch Spracheingabegeräte, die dem Computer vorgeschaltet werden, in maschinell verarbeitbare Information umgewandelt. Dies erfolgt durch Umsetzung des Sprachsignals in ein Bitmuster.

Das Spracheingabegerät vergleicht dieses Muster mit den gespeicherten Mustern des Wortschatzes. Wird eine ausreichende Übereinstimmung mit einem der Wörter des Wortschatzes festgestellt, so gilt dieses Wort als erkannt. Im anderen Fall weist das Gerät die Eingabe zurück.

Der Wortschatz selbst wird zuvor durch ein Training, bei dem jedes Wort mehrfach einzusprechen ist, eingerichtet.

Vereinfachte Erfassung

Die akustische Dateneingabe zeichnet sich durch folgende Eigenschaften aus:

- Optimale Anpassung an die vom Menschen als natürlich empfundenen Kommunikationsgewohnheiten,

- kurze Einarbeitungszeit,

- mehr Bewegungsfreiheit für den Benutzer beim Erfassen der Daten,

- vereinfachte direkte Datenerfassung,

- größere Sicherheit der Eingabe.

Die über Mikrofon eingesprochenen Wörter werden vom CSE-(Computer-Sprach-Eingabe-) Gerät erkannt und in Form eines vereinbarten Codes über eine genormte Schnittstelle an den Computer weitergegeben. Dieser führt die anwendungsspezifische Verarbeitung durch. In vielen Fällen ist es dabei nützlich, dem Benutzer mitzuteilen, welche Daten im Anwenderprogramm des Computers angekommen sind. Diese Rückmeldung wird durch eine optische Anzeige, zum Beispiel des erkannten Wortes, erreicht.

Der Erkennungsvorgang

Technisch können beim Vorgang der Spracherkennung zwei Schritte unterschieden werden:

- die Vorverarbeitung des akustisch-phonetischen Signals und seine Digitalisierung,

- die Klassifizierung des Digitalwertes.

Ziel der Vorverarbeitung ist die Umwandlung des analogen Sprachsignals in digitale Information. Die über ein Mikrofon eintreffenden akustischen Signale werden gefiltert und einer Spektralanalyse unterzogen. Das Spracheingabegerät ermittelt aus dem gewonnenen Spektrum digitale Parameter, die für die weitere Verarbeitung herangezogen werden.

Da der Benutzer nicht immer in gleicher Lautstärke spricht, wird ein Ausgleich von Amplitudenspitzen durchgeführt (Dynamikkompression). Zum Ausgleich unterschiedlicher Sprachgeschwindigkeiten wird das Ergebnis dann zeitnormalisiert. Die anschließende Klassifizierung dient der Zuweisung des Signals zu einem bestimmten Wort. Dies stellt den Identifizierungsvorgang im engeren Sinne dar. Das Wort wird durch Vergleich seines Musters mit den Bitwerten des definierten Wortschatzes erkannt.

Gerät trainieren

Die CSE-Geräte der Computer Gesellschaft Konstanz sind sprecheradaptive Einzelworterkennungssysteme: Sie erfordern eine erkennbare Pause - mindestens 100 Millisekunden - zwischen zwei gesprochenen Wörtern. Der Wortschatz umfaßt je nach Speicherausbau des CSE-Geräts bis zu 370 Wörter. Er besteht aus den für die jeweilige Anwendung ausgewählten Begriffen. Jeder Sprecher, der mit dem Gerät arbeiten will, trainiert in einer Trainingsphase das Gerät auf seine Stimme. Dadurch finden die individuellen Merkmale seiner Sprache Berücksichtigung und tragen zu einer größeren Erkennungssicherheit bei.

Worte als Bitmuster

Für jeden Begriff des Wortschatzes ist zu unterscheiden nach

- akustisch-phonetischem Signal,

- dessen Bedeutung und

- dem vereinbarten Code beziehungsweise Zeichenstring, der an den Anwender-Computer übergeben wird.

Die Trennung nach akustisch-phonetischem Signal und der Bedeutung dieses Signals ist eine typische Eigenschaft sprecheradaptiver Geräte. Die Begriffe mit ihrer Bedeutung werden jeweils für eine Anwendung festgelegt. Dies gilt auch für die an den Anwender-Computer zu übertragenden Codes beziehungsweise Zeichenstrings.

Das akustisch-phonetische Signal jedoch, also das Wort, wie es ausgesprochen wird, ist sprecheradaptiert. Dadurch spielt es auch keine Rolle, ob der Sprecher das Wort mit Dialektfärbung oder in einer Fremdsprache ausspricht.

Bei sprecheradaptiven Geräten wird aus den geschilderten Gründen pro Sprecher ein Wortschatz eingerichtet. Dieser Wortschatz wird in Form von Bitmustern nach dem Training auf einem Hintergrundspeicher (zum Beispiel Magnetplatte, Magnetbandkassette oder Floppy Disk) abgelegt und bei Inbetriebnahme des CSE-Geräts in dessen Speicher geladen.

Die CSE-Spracheingabegeräte sind selbständig arbeitende Prozessoren, die jedoch aus der Sicht des Anwender-Computers die Funktion von Peripheriegeräten haben.

Die Verbindung zur Anwenderkonfiguration erfolgt über die genormte V.24-Schnittstelle.

Einsatzmöglichkeiten für Spracheingabe

Neben ökonomischen Gesichtspunkten spielen bei der Spracherkennung auch ergonomische Überlegungen eine wichtige Rolle. So gewinnt das Argument der Anpassung der technischen Geräte an die menschlichen Kommunikationsgewohnheiten in der Diskussion um die Wahl der geeigneten Datenerfassungsmethoden zunehmend an Bedeutung.

Die Spracheingabe bringt viele Vorteile gegenüber den traditionellen Eingabemöglichkeiten. Da das gesprochene Wort direkt zur Daten- oder Kommandoeingabe verwendet werden kann, werden Tätigkeiten des Ablesens und der wiederholten Übertragung von Daten mit ihren negativen Effekten der Ermüdung und der nachlassenden Konzentration beseitigt.

Dadurch wird die Fehlerrate auch bei ungeübtem Personal herabgesetzt. Tätigkeiten, bei denen beide Hände benutzt werden müssen, oder Arbeiten in schmutziger Umgebung stehen einer Dateneingabe nicht mehr hindernd im Wege. Die Erfahrungen beim bisherigen Einsatz der Geräte haben gezeigt, daß es eine Vielzahl von Einsatzmöglichkeiten in verschiedenen Anwendungsgebieten für die Spracheingabe gibt (Tabelle).