Forschungs- & Entwicklungsinformationsdienst der Gemeinschaft - CORDIS

H2020

HimL — Ergebnis in Kürze

Project ID: 644402
Gefördert unter: H2020-EU.2.1.1.4.
Land: Vereinigtes Königreich
Bereich: Digitale Wirtschaft

Die Grenzen der maschinellen Übersetzung für die Gesundheit sprengen

EU-Forscher haben uns der vollautomatischen maschinellen Übersetzung mit einem neuronalen System einen Schritt näher gebracht, das in der Lage ist, Texte über öffentliche Gesundheit aus dem Englischen ins Tschechische, Deutsche, Polnische und Rumänische zu übersetzen.
Die Grenzen der maschinellen Übersetzung für die Gesundheit sprengen
Online-Informationen sind oft nur in wenigen Sprachen verfügbar, da Organisationen es sich nicht leisten können, sie übersetzen zu lassen. Forscher des von der EU geförderten Projekts „Health in My Language“ (HimL) haben die Aussichten auf eine vollautomatische maschinelle Übersetzung einen Schritt näher gebracht. Dazu haben sie mit schottischen und internationalen Gesundheitsorganisationen zusammengearbeitet, um ein System für den Gesundheitsbereich zu entwickeln.

„Einwanderergemeinschaften haben oft nur begrenzte Kenntnisse der lokalen Sprache – sie benötigen Informationen über lokale Gesundheitsdienste, aber diese sind nicht in ihrer Sprache verfügbar“, sagt Barry Haddow, Projektkoordinator und leitender Forscher in Informatik an der Universität Edinburgh. „Informationen über bestmögliche Verfahren in der Gesundheitsversorgung, die sich aus neueren Forschungen ergeben, werden hauptsächlich auf Englisch verbreitet, aber die Verbraucher möchten gerne auf neue Meta-Analysen in ihrer eigenen Sprache zugreifen.“

Tiefes Lernen

Das HimL-Team erforschte Qualitätsverbesserungen in der maschinellen Übersetzung und integrierte diese in ein neues System, das vom Englischen ins Tschechische, Deutsche, Polnische und Rumänische arbeiten kann. Es begann mit einem syntaktischen oder phrasenbasierten Ansatz, wechselte aber schnell zur neuronalen maschinellen Übersetzung, einem Ansatz, der auf tiefem Lernen basiert und im Laufe des Projekts entstanden ist.

Jedes Jahr wurden neue Versionen veröffentlicht, die von den Projektpartnern NHS 24, dem schottischen nationalen Gesundheitsdienst und Cochrane, einer NRO, die den Zugang zu den neuesten Forschungsergebnissen im Gesundheitsbereich erleichtert, genutzt werden. Die Ergebnisse wurden mit Hilfe von Anwenderbefragungen und anwendungsorientierten Tests sorgfältig ausgewertet.

Die Verbesserungen wurden in drei Hauptbereichen vorgenommen: Anpassung der Übersetzung an die spezifische Terminologie der öffentlichen Gesundheit; Semantik oder Sicherstellung der Genauigkeit der Übersetzung; Morphologie oder Sicherstellung der korrekten Erstellung morphologischer Varianten.

„Englisch hat keine komplizierte Morphologie, aber viele Sprachen in Europa, wie z. B. Tschechisch und Polnisch, haben je nach Fall unterschiedliche Verbformen und Substantive, und wenn man es falsch versteht, kann das die Bedeutung des Textes ändern“, sagt Dr. Haddow.

Die Nutzer wurden gebeten, die Ergebnisse von HimL im Vergleich zu einem bekannten Online-System zu bewerten. „Unsere Systeme konnten in allen Sprachkombinationen bessere Ergebnisse liefern“, sagt Dr. Haddow, „obwohl wir aufgrund der extrem hohen Qualitätsanforderungen der Anwender von NHS 24 und Cochrane noch nicht in der Lage sind, die Übersetzung vollständig zu automatisieren“.

Weniger menschliche Eingriffe

Das Team untersuchte auch, wie gut die HimL-Systeme in Kombination mit der Nachbearbeitung abgeschnitten haben – dieser Ansatz verwendet die maschinelle Übersetzung, um eine grobe erste Version zu erstellen, und lässt dann einen menschlichen Übersetzer das Ergebnis bearbeiten. „Cochrane hat gezeigt, dass die Nachbearbeitung mit dem HimL-System im MateCat-Tool für alle Sprachen außer Polnisch 30-40 % schneller war als die Übersetzung von Grund auf“, sagt Dr. Haddow. „Wir konnten die Anzahl der menschlichen Eingriffe um 30-50 % reduzieren, um eine Übersetzung zu erstellen, die so gut war, wie wir sie mit dem vollständig menschlichen Ansatz erreicht hätten.

Zu den weiteren Ergebnissen gehört der UFAL Medical Corpus, ein Standarddatensatz für Trainingssysteme zum Umgang mit medizinischen Texten. Er umfasst acht europäische Sprachpaare, darunter die HimL-Sprachpaare.

Die Analyse der Ergebnisse der maschinellen Übersetzung hat gezeigt, dass die in früheren Systemen vorhandenen Probleme inzwischen zwar weitgehend überwunden sind, dass diese jedoch immer noch dazu neigen, wichtige Informationen auszulassen oder falsche Informationen hinzuzufügen. „Um dem entgegenzuwirken, verwenden wir eine ‚Rekonstruktion‘ genannte Technik, bei der die Quelle aus dem Ergebnis rekonstruierbar sein sollte“, sagt Dr. Haddow. „Wir haben auch gezeigt, wie man neuronale maschinelle Übersetzung mit Hilfe hochwertiger Wörterbücher verbessern kann und wie man semantische und syntaktische Informationen aus externen Werkzeugen einbezieht.“

Schlüsselwörter

HimL, maschinelle Übersetzung, Gesundheitswesen, Domänenadaption, Semantik, Morphologie, morphologisch reiche Sprachen, Nachbearbeitung
Folgen Sie uns auf: RSS Facebook Twitter YouTube Verwaltet vom Amt für Veröffentlichungen der EU Nach oben