Skip to main content
Przejdź do strony domowej Komisji Europejskiej (odnośnik otworzy się w nowym oknie)
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Multi-modal Context Modelling for Machine Translation

Opis projektu

Nowa era tłumaczenia maszynowego

Jednym z niedoścignionych celów dziedziny przetwarzania języka naturalnego jest automatyczne tłumaczenie języków ludzkich, jednak obecnie wykorzystywane podejścia, w tym między innymi statystyczne tłumaczenie maszynowe, często pomijają istotne informacje kontekstowe uwzględniane przez ludzkich tłumaczy. Efektem są tłumaczenia, w których brakuje istotnych informacji lub których treść nie oddaje zamysłu i zamiaru oryginału, co utrudnia zrozumienie tekstu, a w wielu przypadkach sprawia, że staje się bezużyteczny. Z tego powodu zespół finansowanego ze środków Europejskiej Rady ds. Badań Naukowych projektu MultiMT zamierza zastosować innowacyjne podejście oparte na informacjach multimodalnych. Badacze opracują metody uwzględniania w modelach tłumaczeniowych wskazówek kontekstowych, takich jak obrazy, powiązane dokumenty i metadane, a jako testowe zbiory danych posłużą wpisy na platformie Twitter i recenzje produktów. Ta przekrojowa inicjatywa pozwoli na połączenie wiedzy specjalistycznej dotyczącej przetwarzania języka naturalnego, rozpoznawania obrazów oraz uczenia maszynowego w celu opracowania wyjątkowego rozwiązania.

Cel

Automatically translating human language has been a long sought-after goal in the field of Natural Language Processing (NLP). Machine Translation (MT) can significantly lower communication barriers, with enormous potential for positive social and economic impact. The dominant paradigm is Statistical Machine Translation (SMT), which learns to translate from human-translated examples.

Human translators have access to a number of contextual cues beyond the actual segment to translate when performing translation, for example images associated with the text and related documents. SMT systems, however, completely disregard any form of non-textual context and make little or no reference to wider surrounding textual content. This results in translations that miss relevant information or convey incorrect meaning. Such issues drastically affect reading comprehension and may make translations useless. This is especially critical for user-generated content such as social media posts -- which are often short and contain non-standard language -- but applies to a wide range of text types.

The novel and ambitious idea in this proposal is to devise methods and algorithms to exploit global multi-modal information for context modelling in SMT. This will require a significantly disruptive approach with new ways to acquire multilingual multi-modal representations, and new machine learning and inference algorithms that can process rich context models. The focus will be on three context types: global textual content from the document and related texts, visual cues from images and metadata including topic, date, author, source. As test beds, two challenging user-generated datasets will be used: Twitter posts and product reviews.

This highly interdisciplinary research proposal draws expertise from NLP, Computer Vision and Machine Learning and claims that appropriate modelling of multi-modal context is key to achieve a new breakthrough in SMT, regardless of language pair and text type.

Dziedzina nauki (EuroSciVoc)

Klasyfikacja projektów w serwisie CORDIS opiera się na wielojęzycznej taksonomii EuroSciVoc, obejmującej wszystkie dziedziny nauki, w oparciu o półautomatyczny proces bazujący na technikach przetwarzania języka naturalnego. Więcej informacji: Europejski Słownik Naukowy.

Aby użyć tej funkcji, musisz się zalogować lub zarejestrować

Program(-y)

Wieloletnie programy finansowania, które określają priorytety Unii Europejskiej w obszarach badań naukowych i innowacji.

Temat(-y)

Zaproszenia do składania wniosków dzielą się na tematy. Każdy temat określa wybrany obszar lub wybrane zagadnienie, których powinny dotyczyć wnioski składane przez wnioskodawców. Opis tematu obejmuje jego szczegółowy zakres i oczekiwane oddziaływanie finansowanego projektu.

System finansowania

Program finansowania (lub „rodzaj działania”) realizowany w ramach programu o wspólnych cechach. Określa zakres finansowania, stawkę zwrotu kosztów, szczegółowe kryteria oceny kwalifikowalności kosztów w celu ich finansowania oraz stosowanie uproszczonych form rozliczania kosztów, takich jak rozliczanie ryczałtowe.

ERC-STG - Starting Grant

Wyświetl wszystkie projekty finansowane w ramach tego programu finansowania

Zaproszenie do składania wniosków

Procedura zapraszania wnioskodawców do składania wniosków projektowych w celu uzyskania finansowania ze środków Unii Europejskiej.

(odnośnik otworzy się w nowym oknie) ERC-2015-STG

Wyświetl wszystkie projekty finansowane w ramach tego zaproszenia

Instytucja przyjmująca

IMPERIAL COLLEGE OF SCIENCE TECHNOLOGY AND MEDICINE
Wkład UE netto

Kwota netto dofinansowania ze środków Unii Europejskiej. Suma środków otrzymanych przez uczestnika, pomniejszona o kwotę unijnego dofinansowania przekazanego powiązanym podmiotom zewnętrznym. Uwzględnia podział unijnego dofinansowania pomiędzy bezpośrednich beneficjentów projektu i pozostałych uczestników, w tym podmioty zewnętrzne.

€ 1 010 513,67
Adres
SOUTH KENSINGTON CAMPUS EXHIBITION ROAD
SW7 2AZ London
Zjednoczone Królestwo

Zobacz na mapie

Region
London Inner London — West Westminster
Rodzaj działalności
Higher or Secondary Education Establishments
Linki
Koszt całkowity

Ogół kosztów poniesionych przez organizację w związku z uczestnictwem w projekcie. Obejmuje koszty bezpośrednie i pośrednie. Kwota stanowi część całkowitego budżetu projektu.

€ 1 010 513,67

Beneficjenci (2)

Moja broszura 0 0