CORDIS - Forschungsergebnisse der EU
CORDIS
Inhalt archiviert am 2024-06-18

Testing the portability of techniques to handle dissimilar source and target languages in MT

Article Category

Article available in the following languages:

Maschinenübersetzung wird besser

Die EU-Forschung ist beim Studium der maschinellen Übersetzung (MÜ) weitergekommen, die bedeutende Auswirkungen auf Gesellschaft und Industrie haben dürfte. Das Projekt mündete in einem System mit verbesserter MÜ-Architektur und bietet sich als ein leistungsfähiges Werkzeug für Forscher, Dozenten und Studierende der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) an.

Digitale Wirtschaft icon Digitale Wirtschaft

Das EU-finanzierte Projekt "Testing the portability of techniques to handle dissimilar source and target languages in MT" (ENEUS) kombinierte Fachkompetenz aus den Bereichen Linguistik, Informatik und Übersetzung. Die Arbeit ist für die Nutzer maschineller Übersetzungen sowie die Erkundung von Wechselwirkungen zwischen Computer und menschlichen Sprachen von Bedeutung. ENEUS maß die Funktionsfähigkeit der Matxin-MT-Architektur in Bezug auf die Übertragbarkeit auf verschiedene Sprachenpaare. Man bewertete das System überdies im Hinblick auf analytische Sprachen (z. B. Englisch) als Ausgangssprache und agglutinierende Sprachen (z. B. Baskische) als Zielsprache. Matxin erwies sich für die Übersetzung zwischen verschiedenen Sprachen als geeignet, da eine Tiefenanalyse mit dem Schwerpunkt Morphosyntax möglich ist. Man erstellte einen RBMT-Prototyp (regelbasierte Maschinenübersetzung, rule-based machine translation). Im Folgenden arbeitete man an der Übertragbarkeit des existierenden Systems für Spanisch-Baskisch, um in der Richtung Englisch-Baskisch voranzukommen. Der Prototyp umfasst 35 000 Einträge. Er kann einfache bejahende, verneinende und Fragesätze, die aus indikativen Zeitformen bestehen, für alle vier Subjekt-Objekt-Paradigmen sowie für Aktiv- und Passivfomen und Imperative bewältigen. ENEUS untersuchte agglutinierende Merkmale und Wortstellungsprofile der englischen und der baskischen, finnischen und ungarischen Sprache. Die drei letztgenannten sind agglutinierende Sprachen. Die Projektarbeit verdeutlichte, dass SMT-Systeme nicht alle agglutinierenden Sprachen gleichermaßen gut in den Griff bekommen, und dass ein mehr an der Ausgangssprache orientierter Ansatz möglich und von Vorteil sein könnte. Die Forschung zum Alignment für englisch-finnische, englisch-ungarische und englisch-baskische Paare ergab ENEUS-SMT-Systeme, die dem Aufbau nach allen Paaren genügen. Als Bestandteil des ENEUS-Outreach-Programms trugen 500 Nutzer zur Human-Evaluation-Kampagne bei. Sie verglichen vier vom Projekt entwickelte Englisch-Baskisch-MT-Systeme sowie den Google-Übersetzer nach Stand der Technik. Die Resultate wiesen nach, dass sich das morphologisch versierte SMT-System auf einer Stufe mit den Google-Übersetzer befand. Diese beiden Systeme funktionierten gegenüber allen anderen am besten. Das beste ENEUS-System wurde in den Bologna Translation Service (Elhuyar) integriert. Die Nutzer werden über die Matxin-Website (powered by Elhuyar) auf die ENEUS-Prototypen zugreifen können. Bei dem RBMT-System handelt es sich um das erste Open-Source-Englisch-Baskisch-MT-System. Es steht den Entwicklern über sourceforge zur Verfügung und bietet die Möglichkeit zum Aufbau und zur Erforschung unter Einsatz von Englisch und Spanisch als Ausgangssprachen, die in eine beliebige andere Sprache übersetzt werden sollen.

Schlüsselbegriffe

maschinelle Übersetzung, Maschinenübersetzung, Sprachverarbeitung, Sprachwissenschaft, Linguistik, Informatik, menschliche Sprache

Entdecken Sie Artikel in demselben Anwendungsbereich