Projektbeschreibung
Eine neue Ära der maschinellen Übersetzung
Auf dem Gebiet der Verarbeitung natürlicher Sprache wird seit langem das Ziel verfolgt, menschliche Sprache automatisch zu übersetzen. Bei den derzeitigen Ansätzen wie der statistischen Maschinenübersetzung werden jedoch häufig wichtige kontextuelle Hinweise übersehen, die in von Menschen angefertigten Übersetzungen nicht fehlen. Dies führt dazu, dass es den Übersetzungen an relevanten Informationen mangelt oder dass sie falsche Bedeutungen vermitteln, was das Leseverständnis erschwert und sie in vielen Fällen unbrauchbar werden lässt. In diesem Zusammenhang wird im Rahmen des ERC-finanzierten Projekts MultiMT ein innovativer Ansatz verfolgt, indem globale multimodale Informationen genutzt werden. Es werden Methoden entwickelt, um kontextbezogene Hinweise wie Bilder, dazugehörige Dokumente und Metadaten in Übersetzungsmodelle einzubeziehen. Twitter-Posts und Produktrezensionen werden als Testdatensätze dienen. Diese interdisziplinäre Initiative vereint Fachwissen aus den Bereichen Verarbeitung natürlicher Sprache, maschinelles Sehen und Maschinenlernen.
Ziel
Automatically translating human language has been a long sought-after goal in the field of Natural Language Processing (NLP). Machine Translation (MT) can significantly lower communication barriers, with enormous potential for positive social and economic impact. The dominant paradigm is Statistical Machine Translation (SMT), which learns to translate from human-translated examples.
Human translators have access to a number of contextual cues beyond the actual segment to translate when performing translation, for example images associated with the text and related documents. SMT systems, however, completely disregard any form of non-textual context and make little or no reference to wider surrounding textual content. This results in translations that miss relevant information or convey incorrect meaning. Such issues drastically affect reading comprehension and may make translations useless. This is especially critical for user-generated content such as social media posts -- which are often short and contain non-standard language -- but applies to a wide range of text types.
The novel and ambitious idea in this proposal is to devise methods and algorithms to exploit global multi-modal information for context modelling in SMT. This will require a significantly disruptive approach with new ways to acquire multilingual multi-modal representations, and new machine learning and inference algorithms that can process rich context models. The focus will be on three context types: global textual content from the document and related texts, visual cues from images and metadata including topic, date, author, source. As test beds, two challenging user-generated datasets will be used: Twitter posts and product reviews.
This highly interdisciplinary research proposal draws expertise from NLP, Computer Vision and Machine Learning and claims that appropriate modelling of multi-modal context is key to achieve a new breakthrough in SMT, regardless of language pair and text type.
Wissenschaftliches Gebiet (EuroSciVoc)
CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht.
CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht.
- GeisteswissenschaftenSprachen und Literaturallgemeines Sprachstudium
- NaturwissenschaftenInformatik und InformationswissenschaftenDatenwissenschaftenVerarbeitung natürlicher Sprache
- NaturwissenschaftenInformatik und Informationswissenschaftenkünstliche Intelligenzmaschinelles Sehen
- NaturwissenschaftenInformatik und Informationswissenschaftenkünstliche Intelligenzmaschinelles Lernen
Sie müssen sich anmelden oder registrieren, um diese Funktion zu nutzen
Programm/Programme
Thema/Themen
Finanzierungsplan
ERC-STG - Starting GrantGastgebende Einrichtung
SW7 2AZ LONDON
Vereinigtes Königreich