Skip to main content
European Commission logo print header

Domain Adaptation for Statistical Machine Translation

Article Category

Article available in the following languages:

Neue Maßstäbe für die automatische Übersetzung

Unsere globalisierte, vernetzte Realität verlangt nach immer leistungsfähigeren automatischen Übersetzungsinstrumenten. Mittels Deep Learning liefert ein Team Lösungen für die statistische maschinelle Übersetzung.

Digitale Wirtschaft icon Digitale Wirtschaft

Die Sofortübersetzung zwischen europäischen Sprachen ist von zentraler Bedeutung für eine effiziente Verwaltung in der EU sowie für akademische und wirtschaftliche Aktivitäten. Hierzu werden häufig datengesteuerte Ansätze auf der Grundlage von Verfahren des maschinellen Lernens verwendet. Das Grundwissen wird aus einem parallelen Korpus von Texten und deren Übersetzungen abgeleitet. Auf diese Weise wird in Bereichen mit großen Parallelbeständen wie internationalen Organisationen und EU-Organisationen ein hohes Maß an Übersetzungsqualität erreicht. Umgekehrt leiden zahlreiche andere Bereiche wie medizinische oder juristische Literatur, die keine großen Parallelbestände aufweisen, unter einer vergleichsweise geringen Übersetzungsqualität. Mit einem zweigleisigen Ansatz verbesserte das EU-finanzierte Projekt DASMT den Wissenserwerb für die automatische Übersetzung. Es konzentrierte sich darauf, wie große parallele Textkörper in domänenspezifischen Übersetzungssystemen genutzt werden können, und auf die Erfassung und angemessene Gewichtung von Wissen, das aus nicht parallelen domäneninternen Texten verfügbar ist.

Deep Learning: Herausforderung und Chance

Das DASMT-Team beschäftigte sich zunächst mit Deep Learning, das Graphics Processing Units (Grafikprozessoren) erfordert, indem es Gaming-PCs mit Grafikprozessoren für Endverbraucher kaufte. Projektkoordinator Alexander Fraser erklärt: „Diese sahen tatsächlich wie Gaming-Maschinen aus, zum Beispiel mit externer Wasserkühlung ... doch wir stellten schnell fest, dass wir unser gesamtes Forschungsprogramm ändern mussten, um mit Deep-Learning-Modellen für die Übersetzung zu arbeiten, was im zweiten und dritten Jahr des Projekts viel Aufwand bedeutete und erhebliche Serveranschaffungen erforderte. Allerdings machte dies letztlich einen großen Unterschied in der Wirkung, die wir hatten.“ Die DASMT-Lösungen haben einen direkten Einfluss auf Anbieter von Übersetzungsdiensten sowie auf die Wissenschaft, da die Domänenanpassung für alle Systeme zur Verarbeitung natürlicher Sprache und viele Bereiche der Forschung im Bereich der künstlichen Intelligenz gilt.

Ganzheitliche Ergebnisse für den Bereich der maschinellen Übersetzung

DASMT verbesserte die Übersetzung in morphologisch komplexen Sprachen, die Klassifikatoren verwenden. Folglich verlagerte sich das Interesse auf neuronale maschinelle Übersetzung, eine neue Technologie, die bestimmte Einschränkungen der phrasenbasierten statistischen maschinellen Übersetzung, dem bisherigen Stand der Technik, überwindet. Hier wurde wichtige Arbeit geleistet, sowohl in Bezug auf die Generalisierung von Flexionen und die Verbesserung der sprachlichen Repräsentation, als auch in Bezug auf schnelle Lernalgorithmen. Überraschenderweise arbeiteten die Forschenden am Training von maschinellen Übersetzungssystemen ohne die Verwendung von Paralleldaten. Außerdem untersuchten sie die Übersetzung von Dokumenten, wobei sie den gesamten Kontext nutzten und so eine bessere Modellierung erreichten. Das Projekt konzentrierte sich auch auf mehrere unterrepräsentierte Sprachen mit nur wenigen digitalen Ressourcen, wie zum Beispiel Hiligaynon, eine wichtige Sprache auf den Philippinen. Durch spezielle Fallstudien zu Obersorbisch (einer slawischen Minderheitensprache in Deutschland) und Tschuwaschisch (einer Minderheitensprache in Russland) erweiterte das Team die Forschung über effektives Vortraining für die unbeaufsichtigte neuronale maschinelle Übersetzung. Schließlich gelang es der DASMT, ein höchst leistungsfähiges System zur Erkennung von Hassreden zu entwickeln. Das DASMT-Team hat seine verbesserten Systeme mit offenem Quellcode zur Verfügung gestellt und ist bestrebt, die Ergebnisse der maschinellen Übersetzung und der mehrsprachigen natürlichen Sprachverarbeitung zugänglich zu machen. „In Zukunft werden wir uns um weitere Fördermittel für unsere Forschung bemühen, sowohl von europäischen als auch von nationalen Stellen. Außerdem werden wir eine Ausgründung schaffen, die sowohl kommerzielle als auch gemeinnützige Ziele verfolgt, da in beiden Bereichen großes Interesse an unseren verbesserten mehrsprachigen Modellen besteht“, so Fraser.

Schlüsselbegriffe

DASMT, statistische maschinelle Übersetzung, automatische Übersetzung, Übersetzung, parallele Korpora, Deep Learning, Sprache, mehrsprachig