Skip to main content
Aller à la page d’accueil de la Commission européenne (s’ouvre dans une nouvelle fenêtre)
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS

Multi-modal Context Modelling for Machine Translation

Description du projet

Une nouvelle ère pour la traduction automatique

La traduction automatique du langage humain est objectif de longue date du domaine du traitement automatique du langage naturel (TALN). Cependant, les approches actuelles, telles que la traduction automatique statistique (TAS), négligent souvent les indices contextuels essentiels des traductions humaines. Les traductions manquent par conséquent d’informations pertinentes ou véhiculent des significations incorrectes, ce qui entrave la compréhension de la lecture et les rend bien souvent caduques. Dans ce contexte, le projet MultiMT, financé par le CER, adopte une approche innovante en exploitant des informations multimodales mondiales. Il développera des méthodes permettant d’intégrer des indices contextuels tels que des images, des documents connexes et des métadonnées dans les modèles de traduction. Les messages de X (ex-Twitter) et les évaluations de produits serviront d’ensembles de données de test. Cette initiative interdisciplinaire combine l’expertise du TALN, de la vision par ordinateur et de l’apprentissage automatique.

Objectif

Automatically translating human language has been a long sought-after goal in the field of Natural Language Processing (NLP). Machine Translation (MT) can significantly lower communication barriers, with enormous potential for positive social and economic impact. The dominant paradigm is Statistical Machine Translation (SMT), which learns to translate from human-translated examples.

Human translators have access to a number of contextual cues beyond the actual segment to translate when performing translation, for example images associated with the text and related documents. SMT systems, however, completely disregard any form of non-textual context and make little or no reference to wider surrounding textual content. This results in translations that miss relevant information or convey incorrect meaning. Such issues drastically affect reading comprehension and may make translations useless. This is especially critical for user-generated content such as social media posts -- which are often short and contain non-standard language -- but applies to a wide range of text types.

The novel and ambitious idea in this proposal is to devise methods and algorithms to exploit global multi-modal information for context modelling in SMT. This will require a significantly disruptive approach with new ways to acquire multilingual multi-modal representations, and new machine learning and inference algorithms that can process rich context models. The focus will be on three context types: global textual content from the document and related texts, visual cues from images and metadata including topic, date, author, source. As test beds, two challenging user-generated datasets will be used: Twitter posts and product reviews.

This highly interdisciplinary research proposal draws expertise from NLP, Computer Vision and Machine Learning and claims that appropriate modelling of multi-modal context is key to achieve a new breakthrough in SMT, regardless of language pair and text type.

Champ scientifique (EuroSciVoc)

CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.

Vous devez vous identifier ou vous inscrire pour utiliser cette fonction

Programme(s)

Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.

Thème(s)

Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.

Régime de financement

Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.

ERC-STG - Starting Grant

Voir tous les projets financés dans le cadre de ce programme de financement

Appel à propositions

Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.

(s’ouvre dans une nouvelle fenêtre) ERC-2015-STG

Voir tous les projets financés au titre de cet appel

Institution d’accueil

IMPERIAL COLLEGE OF SCIENCE TECHNOLOGY AND MEDICINE
Contribution nette de l'UE

La contribution financière nette de l’UE est la somme d’argent que le participant reçoit, déduite de la contribution de l’UE versée à son tiers lié. Elle prend en compte la répartition de la contribution financière de l’UE entre les bénéficiaires directs du projet et d’autres types de participants, tels que les participants tiers.

€ 1 010 513,67
Adresse
SOUTH KENSINGTON CAMPUS EXHIBITION ROAD
SW7 2AZ London
Royaume-Uni

Voir sur la carte

Région
London Inner London — West Westminster
Type d’activité
Higher or Secondary Education Establishments
Liens
Coût total

Les coûts totaux encourus par l’organisation concernée pour participer au projet, y compris les coûts directs et indirects. Ce montant est un sous-ensemble du budget global du projet.

€ 1 010 513,67

Bénéficiaires (2)

Mon livret 0 0