CORDIS - Forschungsergebnisse der EU
CORDIS

Integration of Machine Translation Paradigms

Article Category

Article available in the following languages:

Fortgeschrittenes sprachliches Open-Source-System

Ein fortgeschrittenes Tool, das die Sprache in Echtzeit effizient übersetzen kann, würde sich für die Gesellschaft enorm auszahlen. EU-finanzierte Wissenschaftler schlugen ein fortgeschrittenes Paradigma für maschinelle Übersetzung vor, um die Qualität der übersetzten Texte weiter zu verbessern.

Digitale Wirtschaft icon Digitale Wirtschaft
Gesellschaft icon Gesellschaft

Maschinelle Übersetzung (machine translation, MT) ist ein sehr interdisziplinäres und multidisziplinäres Fachgebiet, das Input von Fachleuten benötigt, angefangen bei Übersetzern über Ingenieure bis hin zu Informatikern und Mathematikern sowie Linguisten. Das von der EU finanzierte Projekt IMTRAP (Integration of machine translation paradigms) arbeitete an der Entwicklung und Validierung eines Open-Source-Hybrid-MT-Systems. Die Forscher konzentrierten sich auf mehrere Aspekte der Linguistik wie Morphologie, Syntax und Semantik. Der daraus resultierende hochmoderne Hybrid-System-Prototyp kombiniert verschiedene MT-Paradigmen, einschließlich statistischer und regelbasierter MT (RBMT) und kann in jedem Sprachpaar trainiert werden. Forscher führten erfolgreich statistische MT (SMT)-Basissysteme für Chinesisch-Spanisch und Englisch-Spanisch durch eine Sammlung von Korpora für diese Sprachpaare ein. Eine weitere wichtige IMTRAP-Leistung war die Entwicklung des ersten chinesisch-spanischen Open-Source-Hybridsystems. Der Input dieses Systems wurde mit einem RBMT-System vorverarbeitet und sein Output an ein SMT-System übergeben. SMT verwendet Modelle, deren Parameter aus der Analyse von einsprachigen und zweisprachigen Corpora stammen. RBMT wurde verwendet, um die strukturellen Transferregeln für Sätze zu definieren, und SMT wurde als die einzige Quelle für die lexikalische Übertragung von Wörtern betrachtet. Unter Verwendung von SMT-Techniken wurden bemerkenswerte Verbesserungen bei der endgültigen Ausgabe der Übersetzung beobachtet. Darüber hinaus wurde der Output dieses neuen Hybridsystems mit einem hochmodernen SMT-System im Out-of-Domain-Test-Set kontrastiert. Die Ergebnisse zeigten, dass das neue RBMT-System das SMT-System in allen sprachlichen Ebenen mit Ausnahme der Syntaxebene übertrifft. Speziell übertraf das neue Hybridsystem bei weitem den Stand der Technik im Hinblick auf die lexikalische Abdeckung. Darüber hinaus erzielte IMTRAP eine höhere Hybridisierung in statistischer und RBMT. Die Arbeit konzentrierte sich auch darauf, Transferregeln zu extrahieren, auf die Zuordnung einer Wahrscheinlichkeit zu einer Sequenz von n Wörtern und führte im Generierungsschritt ein Sprachmodell ein. Die Ergebnisse der Forschung, die ihr Ziel erreicht hat, wurden in Zeitschriften und Büchern sowie auf internationalen Konferenzen veröffentlicht.Die Kommerzialisierung eines kostengünstigen Hybrid-MT-Systems wird weitreichende Anwendungen in Informationszugangssystemen und der Übersetzung von Dokumenten haben. Die Gesellschaft insgesamt wird davon profitieren genauso wie der europäische Zivildienst und die internationalen Beziehungen, nicht zuletzt mit asiatischen Parteien, da sich das Projekt zunächst auf die chinesische Sprache konzentrierte.

Schlüsselbegriffe

Linguistik, maschinelle Übersetzung, IMTRAP, Sprachen, statistische MT

Entdecken Sie Artikel in demselben Anwendungsbereich