EU-Projekt will Sprachbarrieren abbauen
Über die Hälfte aller Europäer kann sich nur in der eigenen Sprache unterhalten. Dennoch finden sich viele in mehrsprachigen Arbeitsumgebungen wieder. Meistens verlässt man sich auf professionelle Übersetzungsdienste oder auf Internetservices, die uns dabei helfen, Dokumente in anderen Sprachen zu verstehen. Oft sind diese Ergebnisse aber zu ungenau. SMART (Statistical Multilingual Analysis for Retrieval and Translation - Statistische multilinguale Analyse für Abruf und Übersetzung), ein von der EU gefördertes Projekt, dessen Startschuss vor kurzem gefallen ist, soll beim Abbau der Sprachbarrieren helfen. Dies soll durch die Anwendung statistischer maschineller Übersetzungstechniken erfolgen. Bei der Statistischen Maschinellen Übersetzung (SMT) handelt es sich um ein Paradigma für die maschinelle Übersetzung, bei dem Übersetzungen auf der Grundlage statistischer und informationstheoretischer Modelle erstellt werden. Ein Wort oder Satz wird in eine von mehreren Möglichkeiten übersetzt, die in dem jeweiligen Kontext auftreten sollte. Diese Techniken sind für Übersetzungen besonders vielversprechend, da sie eine gleiche oder bessere Leistung bringen als auf Regeln basierende Übersetzungssysteme. Bei diesen müssen spezialisierte Linguisten riesige Mengen von 'Regeln' zu einem Bruchteil des Entwicklungsaufwands manuell eingeben. An diesen Methoden wurden aber auch einige Mängel festgestellt. Selbst wenn Übersetzungen mithilfe Statistischer Maschineller Übersetzung (SMT) zu einer größeren lexikalischen Genauigkeit tendieren als ihre auf Regeln basierenden Gegenstücke, ist der produzierte Text weniger flüssig. SMT-Systeme werden im Batch-Modus trainiert und sind im Hinblick auf ein Benutzerfeedback nicht so anpassungsfähig. "In der Vergangenheit gab es viele Anwendungen für maschinelle Lerntechniken für die maschinelle Übersetzung", sagt Dr. Craig Saunders, Projektpartner an der Fakultät für Elektronik und Computerwissenschaften (ECS) der Universität Southampton. "Das Projekt versucht die traditionelleren Methoden auszuweiten, die auf loglinearen Modellen aufbauen und auch die neusten Entwicklungen im Bereich des maschinellen Lernens für strukturierte Prognosen anwenden, die jetzt zu vielen leistungsstarken Techniken geführt haben, die ein großes Potenzial in diesem Bereich aufweisen." In den kommenden drei Jahren wird das SMART-Konsortium, das von dem Europäischen Forschungszentrum von Xerox in Frankreich geführt wird, verbesserte statistische maschinelle Lerntechniken auf drei Benutzerszenarien mit den Sprachen Englisch, Französisch, Spanisch und Slowenisch anwenden. Das erste Szenarium wird sich mit der Verbesserung von Systemen befassen, die von professionellen Übersetzern eingesetzt werden. In diesen Systemen seien viele Sätze gespeichert, aber wenn ein Wort falsch übersetzt wurde, könne sich das System nicht von selbst korrigieren, erklärte Dr. Saunders. "Wir suchen nach Wegen, diese Systeme anpassungsfähig zu machen", sagte er. Das zweite Szenarium konzentriert sich auf die Situation, mit denen Analytiker im Kundensupport konfrontiert sind, die in Call-Zentren arbeiten. "Es könnte hier vorkommen, dass der Techniker als Muttersprachler, ein Handbuch in einer anderen Sprache konsultiert und mit dem Kunden in einer dritten Sprache kommuniziert", erklärte Dr. Saunders. Im Fall eines englischsprachigen Analytikers, der nur ein Paar Brocken Deutsch kann, könnte eine Schnittstelle entwickelt werden, mit deren Hilfe der Analytiker eine Suche auf Englisch eingibt, um ein Dokument auf Deutsch zu finden. Eine Weiterentwicklung eines solchen Systems könnte sogar die betreffenden Passagen eines Textes oder Schlagwörter in den Ergebnissen hervorheben. Beim dritten Szenarium soll einem Benutzer der Zugang zu Teilen der mehrsprachigen Wikipedia in den Sprachen ermöglicht werden, die er nur beschränkt versteht. Diese Szenarien werden auf reale Arbeitsumgebungen angewandt, an denen Benutzergruppen aus innovationsorientierten KMU und Xerox teilnehmen werden. "Zum ersten Mal werden neue maschinelle Lerntechniken auf diese Weise eingesetzt", sagte Dr. Saunders. "Xerox arbeitet in vielen verschiedenen Sprachen und der sprachübergreifende Zugang zu Informationen könnte in diesem Kontext sehr nützlich sein. Die Möglichkeit, eine Suche in einer Sprache einzugeben und die Dokumente in einer anderen zu erhalten, kann sich für zahlreiche Anwendungsgebiete als nützlich erweisen." "Wir versuchen Techniken zu entwickeln, die den EU-Bürgern im Allgemeinen helfen werden. Aber wenn wir die Verbesserungen quantitativ bewerten möchten, dann ist es einfacher, das auf industrielle Weise zu tun", sagte Dr. Saunders den CORDIS-Nachrichten. "Wenn sich zum Projektende diese Techniken als erfolgreich herausstellen, möchten wir wirklich ein Paar Demos ins Internet stellen, die das breite Publikum benutzen kann."