Multi-modal Context Modelling for Machine Translation

Informazioni relative al progetto

MultiMT

ID dell’accordo di sovvenzione: 678017

DOI

10.3030/678017

Progetto chiuso

Data della firma CE 10 Marzo 2016

Data di avvio 1 Luglio 2016

Data di completamento 31 Dicembre 2021

Finanziato da

EXCELLENT SCIENCE - European Research Council (ERC)

Costo totale

€ 1 493 771,00

Contributo UE

€ 1 493 771,00

1 493 771,00

Coordinato da

IMPERIAL COLLEGE OF SCIENCE TECHNOLOGY AND MEDICINE
United Kingdom

Descrizione del progetto

Una nuova era nella traduzione automatica

Nel campo dell’elaborazione del linguaggio naturale si persegue da lungo tempo l’obiettivo di tradurre automaticamente il linguaggio umano. Tuttavia, gli approcci attuali esistenti, come la traduzione automatica statistica (SMT, Statistical Machine Translation), spesso trascurano indizi contestuali di fondamentale importanza, che invece vengono presi in considerazione nelle traduzioni umane. Ciò determina traduzioni che spesso risultano prive di informazioni rilevanti o trasmettono significati errati, ostacolando la comprensione della lettura e comportandone in numerosi casi l’inutilizzabilità. Alla luce di queste premesse, il progetto MultiMT, finanziato dal CER, sta adottando un approccio innovativo basato sull’impiego di informazioni multimodali globali. MultiMT svilupperà metodi volti a incorporare indizi contestuali quali immagini, documenti correlati e metadati nei modelli di traduzione avvalendosi di post pubblicati su Twitter e di recensioni di prodotti come insiemi di dati di prova. Questa iniziativa interdisciplinare combina competenze in svariati ambiti, quali elaborazione del linguaggio naturale, visione artificiale e apprendimento automatico.

Obiettivo

Automatically translating human language has been a long sought-after goal in the field of Natural Language Processing (NLP). Machine Translation (MT) can significantly lower communication barriers, with enormous potential for positive social and economic impact. The dominant paradigm is Statistical Machine Translation (SMT), which learns to translate from human-translated examples.

Human translators have access to a number of contextual cues beyond the actual segment to translate when performing translation, for example images associated with the text and related documents. SMT systems, however, completely disregard any form of non-textual context and make little or no reference to wider surrounding textual content. This results in translations that miss relevant information or convey incorrect meaning. Such issues drastically affect reading comprehension and may make translations useless. This is especially critical for user-generated content such as social media posts -- which are often short and contain non-standard language -- but applies to a wide range of text types.

The novel and ambitious idea in this proposal is to devise methods and algorithms to exploit global multi-modal information for context modelling in SMT. This will require a significantly disruptive approach with new ways to acquire multilingual multi-modal representations, and new machine learning and inference algorithms that can process rich context models. The focus will be on three context types: global textual content from the document and related texts, visual cues from images and metadata including topic, date, author, source. As test beds, two challenging user-generated datasets will be used: Twitter posts and product reviews.

This highly interdisciplinary research proposal draws expertise from NLP, Computer Vision and Machine Learning and claims that appropriate modelling of multi-modal context is key to achieve a new breakthrough in SMT, regardless of language pair and text type.

Campo scientifico (EuroSciVoc)

CORDIS classifica i progetti con EuroSciVoc, una tassonomia multilingue dei campi scientifici, attraverso un processo semi-automatico basato su tecniche NLP. Cfr.: Il Vocabolario Scientifico Europeo.

Programma(i)

Programmi di finanziamento pluriennali che definiscono le priorità dell’UE in materia di ricerca e innovazione.

H2020-EU.1.1. - EXCELLENT SCIENCE - European Research Council (ERC) PROGRAMMA PRINCIPALE
Vedi tutti i progetti finanziati nell’ambito di questo programma

Argomento(i)

Gli inviti a presentare proposte sono suddivisi per argomenti. Un argomento definisce un’area o un tema specifico per il quale i candidati possono presentare proposte. La descrizione di un argomento comprende il suo ambito specifico e l’impatto previsto del progetto finanziato.

ERC-StG-2015 - ERC Starting Grant
Vedi tutti i progetti finanziati su questa tematica

Meccanismo di finanziamento

Meccanismo di finanziamento (o «Tipo di azione») all’interno di un programma con caratteristiche comuni. Specifica: l’ambito di ciò che viene finanziato; il tasso di rimborso; i criteri di valutazione specifici per qualificarsi per il finanziamento; l’uso di forme semplificate di costi come gli importi forfettari.

ERC-STG - Starting Grant

Vedi tutti i progetti finanziati nell’ambito di questo schema di finanziamento

Invito a presentare proposte

Procedura per invitare i candidati a presentare proposte di progetti, con l’obiettivo di ricevere finanziamenti dall’UE.

(si apre in una nuova finestra) ERC-2015-STG

Vedi tutti i progetti finanziati nell’ambito del bando

Istituzione ospitante

IMPERIAL COLLEGE OF SCIENCE TECHNOLOGY AND MEDICINE

Contributo netto dell'UE

€ 1 010 513,67

Indirizzo

SOUTH KENSINGTON CAMPUS EXHIBITION ROAD
SW7 2AZ London
Regno Unito

Regione

London Inner London — West Westminster

Tipo di attività

Higher or Secondary Education Establishments

Collegamenti

Contatta l’organizzazione

Sito web

Partecipazione a programmi di R&I dell'UE

Rete di collaborazione HORIZON

Costo totale

€ 1 010 513,67

Beneficiari (2)

IMPERIAL COLLEGE OF SCIENCE TECHNOLOGY AND MEDICINE

Regno Unito

Contributo netto dell'UE

€ 1 010 513,67

THE UNIVERSITY OF SHEFFIELD

Regno Unito

Contributo netto dell'UE

€ 483 257,33

Descrizione del progetto

Una nuova era nella traduzione automatica

Obiettivo

Campo scientifico (EuroSciVoc) CORDIS classifica i progetti con EuroSciVoc, una tassonomia multilingue dei campi scientifici, attraverso un processo semi-automatico basato su tecniche NLP. Cfr.: Il Vocabolario Scientifico Europeo.

Programma(i) Programmi di finanziamento pluriennali che definiscono le priorità dell’UE in materia di ricerca e innovazione.

Argomento(i) Gli inviti a presentare proposte sono suddivisi per argomenti. Un argomento definisce un’area o un tema specifico per il quale i candidati possono presentare proposte. La descrizione di un argomento comprende il suo ambito specifico e l’impatto previsto del progetto finanziato.

Invito a presentare proposte Procedura per invitare i candidati a presentare proposte di progetti, con l’obiettivo di ricevere finanziamenti dall’UE.

Istituzione ospitante

Beneficiari (2)

Scarica Scarica il contenuto della pagina

Campo scientifico (EuroSciVoc)

CORDIS classifica i progetti con EuroSciVoc, una tassonomia multilingue dei campi scientifici, attraverso un processo semi-automatico basato su tecniche NLP. Cfr.: Il Vocabolario Scientifico Europeo.

Programma(i)

Programmi di finanziamento pluriennali che definiscono le priorità dell’UE in materia di ricerca e innovazione.

Argomento(i)

Gli inviti a presentare proposte sono suddivisi per argomenti. Un argomento definisce un’area o un tema specifico per il quale i candidati possono presentare proposte. La descrizione di un argomento comprende il suo ambito specifico e l’impatto previsto del progetto finanziato.

Invito a presentare proposte

Procedura per invitare i candidati a presentare proposte di progetti, con l’obiettivo di ricevere finanziamenti dall’UE.