CORDIS
Wyniki badań wspieranych przez UE

CORDIS

Polski PL

Integration of Machine Translation Paradigms

Informacje na temat projektu

Identyfikator umowy o grant: 299251

Status

Projekt zamknięty

  • Data rozpoczęcia

    7 Grudnia 2012

  • Data zakończenia

    28 Października 2016

Finansowanie w ramach:

FP7-PEOPLE

  • Całkowity budżet:

    € 173 212,80

  • Wkład UE

    € 173 212,80

Koordynowany przez:

UNIVERSITAT POLITECNICA DE CATALUNYA

Polski PL

Zaawansowany system językowy w formacie open-source

Narzędzie, które może sprawnie tłumaczyć teksty w czasie rzeczywistym, przyniosłoby ogromne korzyści społeczeństwu. Finansowany ze środków UE zespół badawczy zaproponował zaawansowany paradygmat tłumaczenia maszynowego (MT) umożliwiający podniesienie jakości tłumaczonych tekstów.

Gospodarka cyfrowa
Społeczeństwo
© scyther5, Thinkstock

MT to w wysokim stopniu interdyscyplinarna i multidyscyplinarna dziedzina, w której badania prowadzą różni specjaliści, w tym tłumacze, inżynierowie, informatycy, matematycy i językoznawcy. W ramach projektu IMTRAP (Integration of machine translation paradigms) opracowywano i testowano hybrydowy system MT w formacie open-source. Badacze zajmowali się różnymi aspektami językowymi, takimi jak morfologia, składnia i semantyka. Prototyp nowoczesnego systemu hybrydowego łączy w rezultacie różne paradygmaty MT, w tym maszynowe tłumaczenia statystyczne i oparte na regułach (RBMT), oraz może nadawać się do trenowania w dowolnej parze językowej. Naukowcy z powodzeniem wprowadzili podstawowe systemy statystyczne MT (SMT) dla par językowych chiński–hiszpański oraz angielski–hiszpański po zbudowaniu dla nich korpusów językowych. Innym ważnym osiągnięciem projektu IMTRAP było opracowanie pierwszego hybrydowego systemu open-source dla pary językowej chiński–hiszpański. Dane wejściowe poddano wstępnej obróbce za pomocą systemu RBMT, a dane wyjściowe przekazano do systemu SMT. W SMT wykorzystano modele, których parametry wyprowadzone są z analizy jednojęzycznych i dwujęzycznych korpusów. RBMT użyto do zdefiniowania zasad transferu strukturalnego części zdania, podczas gdy SMT był rozważany jako jedyne źródło transferu leksykalnego (słów). Dzięki zastosowaniu technik SMT udało się istotnie poprawić jakość tłumaczenia. Ponadto tłumaczenia uzyskane przy pomocy nowego hybrydowego systemu zestawiono z jak dotąd najbardziej zaawansowanym systemem SMT w zbiorze testów spoza dziedziny. Wyniki wskazują, że nowy system RBMT jest skuteczniejszy niż system SMT na wszystkich poziomach językowych, z wyjątkiem składni. W szczególności nowy system hybrydowy ma dużo większy zasób leksykalny. Poza tym uczestnicy projektu IMTRAP uzyskali większą hybrydyzację tłumaczenia statystycznego i RBMT. Ich prace dotyczyły też wyodrębniania reguł transferu, przypisania prawdopodobieństwa do sekwencji n słów oraz wprowadzenia modelu językowego do etapu generowania tłumaczenia. Wyniki badań, których cel został osiągnięty, zostały udostępnione w artykułach naukowych i książkach oraz na międzynarodowych konferencjach.Wersja komercyjna hybrydowego systemu tłumaczenia maszynowego znajdzie zastosowanie w wielu różnych dziedzinach, w tym w systemach dostępu do informacji czy w tłumaczeniu dokumentów. Społeczeństwo odniesie olbrzymie korzyści, podobnie służby cywilne w Europie oraz osoby zajmujące się stosunkami międzynarodowymi, głównie z podmiotami azjatyckimi, ponieważ projekt pierwotnie koncentrował się na języku chińskim.

Słowa kluczowe

Językowy, tłumaczenie maszynowe, IMTRAP, języki, statystyczne tłumaczenie maszynowe

Informacje na temat projektu

Identyfikator umowy o grant: 299251

Status

Projekt zamknięty

  • Data rozpoczęcia

    7 Grudnia 2012

  • Data zakończenia

    28 Października 2016

Finansowanie w ramach:

FP7-PEOPLE

  • Całkowity budżet:

    € 173 212,80

  • Wkład UE

    € 173 212,80

Koordynowany przez:

UNIVERSITAT POLITECNICA DE CATALUNYA