CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Integration of Machine Translation Paradigms

Article Category

Article available in the following languages:

Zaawansowany system językowy w formacie open-source

Narzędzie, które może sprawnie tłumaczyć teksty w czasie rzeczywistym, przyniosłoby ogromne korzyści społeczeństwu. Finansowany ze środków UE zespół badawczy zaproponował zaawansowany paradygmat tłumaczenia maszynowego (MT) umożliwiający podniesienie jakości tłumaczonych tekstów.

Gospodarka cyfrowa icon Gospodarka cyfrowa
Społeczeństwo icon Społeczeństwo

MT to w wysokim stopniu interdyscyplinarna i multidyscyplinarna dziedzina, w której badania prowadzą różni specjaliści, w tym tłumacze, inżynierowie, informatycy, matematycy i językoznawcy. W ramach projektu IMTRAP (Integration of machine translation paradigms) opracowywano i testowano hybrydowy system MT w formacie open-source. Badacze zajmowali się różnymi aspektami językowymi, takimi jak morfologia, składnia i semantyka. Prototyp nowoczesnego systemu hybrydowego łączy w rezultacie różne paradygmaty MT, w tym maszynowe tłumaczenia statystyczne i oparte na regułach (RBMT), oraz może nadawać się do trenowania w dowolnej parze językowej. Naukowcy z powodzeniem wprowadzili podstawowe systemy statystyczne MT (SMT) dla par językowych chiński–hiszpański oraz angielski–hiszpański po zbudowaniu dla nich korpusów językowych. Innym ważnym osiągnięciem projektu IMTRAP było opracowanie pierwszego hybrydowego systemu open-source dla pary językowej chiński–hiszpański. Dane wejściowe poddano wstępnej obróbce za pomocą systemu RBMT, a dane wyjściowe przekazano do systemu SMT. W SMT wykorzystano modele, których parametry wyprowadzone są z analizy jednojęzycznych i dwujęzycznych korpusów. RBMT użyto do zdefiniowania zasad transferu strukturalnego części zdania, podczas gdy SMT był rozważany jako jedyne źródło transferu leksykalnego (słów). Dzięki zastosowaniu technik SMT udało się istotnie poprawić jakość tłumaczenia. Ponadto tłumaczenia uzyskane przy pomocy nowego hybrydowego systemu zestawiono z jak dotąd najbardziej zaawansowanym systemem SMT w zbiorze testów spoza dziedziny. Wyniki wskazują, że nowy system RBMT jest skuteczniejszy niż system SMT na wszystkich poziomach językowych, z wyjątkiem składni. W szczególności nowy system hybrydowy ma dużo większy zasób leksykalny. Poza tym uczestnicy projektu IMTRAP uzyskali większą hybrydyzację tłumaczenia statystycznego i RBMT. Ich prace dotyczyły też wyodrębniania reguł transferu, przypisania prawdopodobieństwa do sekwencji n słów oraz wprowadzenia modelu językowego do etapu generowania tłumaczenia. Wyniki badań, których cel został osiągnięty, zostały udostępnione w artykułach naukowych i książkach oraz na międzynarodowych konferencjach.Wersja komercyjna hybrydowego systemu tłumaczenia maszynowego znajdzie zastosowanie w wielu różnych dziedzinach, w tym w systemach dostępu do informacji czy w tłumaczeniu dokumentów. Społeczeństwo odniesie olbrzymie korzyści, podobnie służby cywilne w Europie oraz osoby zajmujące się stosunkami międzynarodowymi, głównie z podmiotami azjatyckimi, ponieważ projekt pierwotnie koncentrował się na języku chińskim.

Słowa kluczowe

Językowy, tłumaczenie maszynowe, IMTRAP, języki, statystyczne tłumaczenie maszynowe

Znajdź inne artykuły w tej samej dziedzinie zastosowania