Melden Sie sich hier an, um auf Kommentare und die Whitepaper-Datenbank zugreifen zu können.

Kein Log-In? Dann jetzt kostenlos registrieren.

Falls Sie Ihr Passwort vergessen haben, können Sie es hier per E-Mail anfordern.

Der Zugang zur Reseller Only!-Community ist registrierten Fachhändlern, Systemhäusern und Dienstleistern vorbehalten.

Registrieren Sie sich hier, um Zugang zu diesem Bereich zu beantragen. Die Freigabe Ihres Zugangs erfolgt nach Prüfung Ihrer Anmeldung durch die Redaktion.

04.05.2007

Baustelle Sprache: Dolmetscher verlieren den Verstand

Der menschliche Traum von einheitlicher Verständigung ist fast so alt wie der Mensch selbst. Mit statistischen maschinellen Übersetzungen scheint er greifbar zu werden.

Es gibt kaum einen Bereich der Internet-Services, in dem Google seine Finger nicht im Spiel hat. Ein bisher nicht so richtig wahrgenommener Clou der Amerikaner ist der "Google Translator", mit dem sich Texte und ganze Web-Seiten in zahlreiche Fremdsprachen übersetzen lassen. Altbekannt ist diese Idee, doch Google wäre bestimmt nicht eingestiegen, wenn es sich nicht etwas mehr davon versprechen würde. Richtig interessant nämlich ist die Technik, die dahintersteckt: "Statistische maschinelle Übersetzung" (statistische MÜ) heißt sie und wird von den Kaliforniern als einem der ersten großen Anbieter am Markt eingesetzt. Auch wenn sie noch nicht ausgereift ist: Langfristig könnte die Technik menschliche Übersetzer zumindest für einfache Aufgaben ab- lösen.

Hier lesen Sie ...

• wie Forscher und Unternehmen an neuen Methoden der maschinellen Übersetzung arbeiten;

• mit welchen Schwierigkeiten sie dabei zu kämpfen haben;

• wo die Technik bereits eingesetzt wird;

• welche Möglichkeiten die statistische maschinelle Übersetzung in Zukunft bieten kann.

Mehr zum Thema

www.computerwoche.de/

586965: PC-Dolmetscher mit Köpfchen;

590717: SDL bringt SDL Trados 2007 für automatisierte Übersetzungen;

591945: Elektronische Dolmetscher holen auf - mit Online-Special: Vier Übersetzungs-Tools im Vergleich.

Weiterführende Links

www.statmt.org/;

www.statmt.org/matrix/;

www.statmt.org/ued/.

Politik hilft beim Datensammeln

Das Prinzip der statistischen MÜ ist ganz im Sinne der Google-Philosophie, mit der die Suchmaschine Ende der 90er Jahre ihren Siegeszug antrat: Je häufiger eine Satzkonstruktion durch einen Menschen in einer bestimmten Art und Weise übersetzt wurde, desto größer ist die Wahrscheinlichkeit, dass sie für eine standardisierte, computergenerierte Übersetzung in Frage kommt. Bisher scheitern maschinelle Techniken vor allem an der komplexen Semantik in der menschlichen Sprache - eine annähernd große Flexibilität bei Wortbedeutungen und Satzbau könnten Computer nur durch langwierige Lernprozesse erreichen. Forscher und Unternehmen arbeiten daran, Datenbanken aufzubauen, in die Originaltexte verknüpft mit von Menschen geschaffenen Übersetzungen in allen möglichen Sprachen eingespeist werden. Daraus soll der Rechner immer präziser ermitteln können, wie er etwas am besten übersetzt, damit der Nutzer am Ende ein verlässliches Ergebnis erhält.

Google baut dabei auf den schier unerschöpflichen Fundus von Do- kumenten im Web. Zunächst werden vorrangig Meldungen der Vereinten Nationen und der Europäischen Union, die mehrsprachig veröffentlicht sind, untereinander abgeglichen. Millionen von Wörtern und Satzkonstruktionen besonders in Arabisch, Chinesisch und Russisch wurden auf diesem Weg bereits verarbeitet. Die wachsende Datenmenge hilft auch dem Kernprodukt Suchmaschine: Sie kann besser erkennen, ob Texte, die in verschiedenen Sprachen vorliegen, den gleichen Inhalt aufweisen, und Trefferlisten wesentlich spezifischer sortieren.

Um sein utopisch anmutendes Vorhaben vom universellen Übersetzer zu realisieren, beschäftigt Google nur die Besten ihres Fachs: Leiter des Translator-Projekts ist Franz Josef Och, der an der RWTH Aachen mit der Weiterentwicklung der von IBM-Forscher Peter Brown 1990 in die Welt gesetzten MÜ-Variante promovierte. An der University of Southern California in Los Angeles machte er sich danach einen Namen, als er damit begann, Bibeltexte vielsprachig abzutippen, um eine verlässliche Grundlage für seine weiteren Forschungen zu schaffen. Auch dank zahlreicher Buchveröffentlichungen gehört Och 34-jährig bereits zu den Koryphäen auf dem Gebiet der maschinellen Übersetzungen. Der selbstbewusste Wissenschaftler sieht in seinem Projekt gerade im Übersetzungsmodus Arabisch-Englisch einen kräftigen Schritt nach vorne und betont seinen Erfolg: "Leute, die lange im Geschäft sind, sind von unseren Ergebnissen begeistert und sehen darin den Durchbruch", berichtete Och in einem Interview mit der Nachrichtenagentur Reuters.

Universitäten treiben an

Mit ihrem Vorstoß stehen Och und Google aber längst nicht alleine da: Forschergruppen rund um den Globus arbeiten in größtenteils uni- versitären Projekten daran, die Entwicklung der statistischen Methoden voranzubringen. Finanziert werden die wissenschaftlichen Untersuchungen oft durch staatliche und private Förderer, die gezieltes Interesse an verbesserten Übersetzungen in bestimmten Sprachkombinationen besitzen. Ganz vorne mit dabei ist das US-Verteidigungsministerium, das sich von maschineller Übersetzung vor allem schnellere und bessere Kommunikationsmöglichkeiten in internationalen Beziehungen erwartet und sein Augenmerk mit dem Projekt "Agile" derzeit besonders auf die arabisch- und chinesischsprachigen Räume richtet. Der Forschungsvorsprung für diese Sprachen ist groß, die Übersetzungsergebnisse sind weit fortgeschritten.

An Agile sind unter anderem die Cambridge University, das Internationale Sprachenzentrum der Universität Innsbruck (ISI), das Massachusetts Institute of Technology (MIT), BBN Technologies und die Universität von Edinburgh beteiligt. Auch in Schottland lenkt ein Deutscher die Geschicke der Sprachwissenschaftler: Philipp Köhn war genau wie Och an der University of Southern California tätig und hat dort seine Doktorarbeit verfasst. Seitdem kümmert sich Köhn in Edinburgh um neue Modelle der maschinellen Übersetzung.

Inhalt und Quelle entscheiden

Neben Agile betreibt seine Forschergruppe das bis 2008 ausgelegte dreijährige EU-finanzierte Projekt "Euromatrix". Studienziel ist die Weiterentwicklung maschineller Übersetzungen aller EU-Sprachen. Während die gesamte Koordination in Schottland stattfindet, sind auch die Universitäten von Saarbrücken und Prag beteiligt. Darüber hinaus werden die Unternehmen Linear B, Group Technologies und Morphologic in die Arbeit eingebunden.

Um das Projekt fortlaufend zu evaluieren, kommt das 2002 von IBM entwickelte Messverfahren Bleu (Bilingual Evaluation Understudy) zum Einsatz, das mittlerweile standardisiert wurde und auch von Google zur Qualitätskontrolle verwendet wird. Bleu gleicht die maschinellen Ergebnisse mit den Referenztexten relativ zuverlässig auf identische Übersetzungen ab. Daraus ermittelt das System einen Wert, der über die Qualität der Übersetzung Aufschluss gibt.

Die aktuellen Zwischenstände der Euromatrix lassen sich im Web verfolgen. Alle bisher erzielten Bleu-Werte machen deutlich, wie stark die statistische MÜ noch von der englischen Sprache und dem Text- fundus abhängt. "Technische und politische Texte können wir völlig problemlos übersetzen lassen - von Sportberichten und Kochrezepten lassen wir dagegen lieber die Finger", sagt Köhn und verweist damit auf die starke thematische Zentrierung frei verfügbarer Texte aus dem Fundus von EU oder UNO. Abhilfe schaffen könnten da wohl nur Verlage, die Publikationen in sehr vielen Sprachen vorliegen haben. Die dürfen ihre Texte aus Urheberrechtsgründen aber oft nicht herausgeben. Oft wollten sie es aber auch gar nicht, weil Universitäten nicht die finanziellen Möglichkeiten zum Erwerb der Texte besäßen, zeigt sich der Wissenschaftler ob der geringen Aussicht auf massentauglichere Inhalte realistisch.

Mensch gegen Maschine

Ein weiteres großes Problem ist die Mehrdeutigkeit vieler Worte, die in der Fachsprache als Homonyme bezeichnet werden. Deutsche Wörter wie "Bank", "Steuer", "Kiefer", "Reif", "Leiter", "Blatt" oder "Ehe" können erst im inhaltlichen Zusammenhang korrekt übersetzt werden. Gleiches gilt für das Englische bei Wörtern wie "arms", "right", "left", "polish" oder "saw". Gerade auch in ostasiatischen Sprachen tritt dieses Phänomen häufig auf. Maschinellen Übersetzern den richtigen Sinnzusammenhang zu erschließen stellt für die Wissenschaft eine schwierige Herausforderung dar. Für Köhn steht fest, dass automatisierte Techniken den menschlichen Dolmetscher auf absehbare Zeit nicht werden ersetzen können. Wichtiger sei die Frage nach der Nützlichkeit der Technik, nicht nach ihrer Perfektionierung: Für die grobe Sichtung von Dokumenten reiche der heutige Forschungsstand vollkommen aus, meint der Wissenschaftler. Auch deshalb steckten große US-Behörden Unsummen in die Forschung, um ihren Fundus an gedrucktem Wissen effizient auswerten zu können.

Chance für Unternehmen

Die Subventionierung der Forschung könnte sich über kurz oder lang auch in der freien Wirtschaft auszahlen: In 80 Prozent aller internationalen Unternehmen führen durch Menschen verursachte Übersetzungsfehler zu Einnahmeverlusten, verzögern Produktstarts oder ziehen gar Geldbußen wegen Verstößen gegen geltendes Recht nach sich. Zu diesem Ergebnis kommt eine aktuelle Umfrage im Auftrag von SDL Inter- national, einem führenden Anbieter von Technologielösungen im Bereich globales Informations-Management. Maschinelle Übersetzungen, die zuverlässige und schnelle Resultate liefern, könnten diesen Missstand teilweise beheben. Allerdings ließe sich laut SDL schon durch eine stringen- tere Organisation der Übersetzungs- aufgaben in einem Unternehmen das bestehende Durcheinander weitgehend beheben. Häufig ist nicht einmal klar, welche Abteilung welches Büro mit welcher Übersetzung beauftragt.

Wort-für-Wort birgt Tücken

Heute bleibt der Einsatz maschineller Techniken meist noch auf die Übersetzung von einfachen oder selten abgerufenen Inhalten beschränkt. Doch schon so können Kosten reduziert werden. Microsoft beispielsweise lässt viele nicht englischsprachige Internet-Hilfsseiten seiner "Knowledge Base" maschinell erstellen - gerade zu selten auftauchenden Fragen, die Windows- und Office-Produkte betreffen, findet der Anwender häufig ausschließlich computergenerierte Übersetzungen der Originaltexte. Dass die Ergebnis- se dabei nicht immer hundertpro- zentig zuverlässig sind, wird durch einen Warnhinweis stets angezeigt. Das ist auch bitter nötig, denn inno- vative deutsche Satzschöpfungen wie die folgende auf einer Hilfeseite zu einer Fehlermeldung von Windows Server 2003 sind keine Seltenheit: "Clusterdienst wird heruntergefah- ren, da das Mitgliedschaft-Modul ein Mitgliedschaft-Ereignis entdeckte während versuchen dem Server-Cluster beizutreten. Das Herunterfahren ist die standardmäßige Reaktion auf dieser Art von Ereignis. Cluster wird neu pro den Wiederherstellungs- maßnahmen dem Dienstmanager gestartet."

Mit der Warnung gehen die Redmonder auch möglichen juristischen Problemen aus dem Weg: Hinter der Rechtsverbindlichkeit maschineller Übersetzungen steht im Gegensatz zur eindeutig geregelten Haftbarkeit menschlicher Dolmetscher ein großes Fragezeichen. Bei wichtigen Sachverhalten müsse ein menschlicher Dolmetscher immer noch zusätzlich absichern - niemals dürfe man sich allein auf Ergebnisse aus dem Rechner verlassen, warnt Philipp Köhn vor vorschnellen Personaleinsparungen. Aufgrund der ermutigenden Forschungsergebnisse der vergangenen Jahre erhofft er sich langfristig dennoch großen Nutzen im Alltag.

Doch wie sehen professionelle Übersetzer die Situation? Stellt für sie die technische Entwicklung eine Gefahr dar? "Maschinelle Übersetzungen sind für uns nicht zu gebrauchen", sagt Barbara Wohanka vom Übersetzungsbüro "Wohanka & Kollegen" aus Geisenhausen bei Landshut. Die meisten Sprachdienstleister setzten dennoch bereits seit langem Datenbanken ein, in die alle erledigten Übersetzungen eingearbeitet werden - so ergebe sich mit der Zeit ein hilfreicher Fundus.

Dieses statistische Prinzip könne aber niemals menschlich erzeugte Texte ersetzen, sondern sei nur eine kleine Arbeitserleichterung, so Wohanka. Sie beklagt vor allem die nach wie vor verbreitete Wort-für-Wort-Übersetzung der Rechner. Und die führe nur zu guten Ergebnissen, wenn der Computer mit grammatisch an die Zielsprache angepassten Texten gefüttert werde. Wesentlich effizienter sei es deshalb, gleich alles selbst zu übersetzen, äußert die Übersetzerin ihre Bedenken gegenüber den Chancen maschineller Techniken auf dem Markt der professionellen Dolmetscher.

Google denkt da sicher anders.