European Commission logo
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Domain Adaptation for Statistical Machine Translation

Article Category

Article available in the following languages:

Przesuwanie granic tłumaczeń automatycznych

W obecnym zglobalizowanym, połączonym świecie potrzebne są coraz doskonalsze narzędzia do tłumaczenia automatycznego. Wykorzystując uczenie głębokie, pewien zespół badawczy tworzy rozwiązanie w zakresie statystycznego tłumaczenia maszynowego.

Gospodarka cyfrowa icon Gospodarka cyfrowa

Błyskawiczne tłumaczenie na języki europejskie jest niezbędne do skutecznego rządzenia w UE, a także w działalności naukowej i komercyjnej. Aby je umożliwić, powszechnie stosuje się podejścia bazujące na technikach uczenia maszynowego, które pozwalają na analizę korpusów tekstów źródłowych i ich tłumaczeń. Oznacza to, że możliwe jest otrzymanie lepszej jakości tłumaczeń w dziedzinach, dla których dostępne są obszerne równoległe korpusy tekstów źródłowych i ich przekładów, tak jak w przypadku organizacji międzynarodowych i instytucji unijnych. Z kolei w przypadku wielu innych dziedzin, takich jak literatura medyczna czy prawnicza, dla których nie ma dużych korpusów równoległych, jakość tłumaczenia jest nierównomierna i bywa niska. Stosując dwutorowe podejście, zespół finansowanego przez UE projektu DASMT udoskonalił metody pozyskiwania danych na potrzeby tłumaczenia automatycznego. Uczeni skupili na tym, jak wykorzystać duże, niezwiązane z daną dziedziną korpusy równoległe w systemach tłumaczeniowych specyficznych dla danej dziedziny, a także na wydobyciu i odpowiednim wyważeniu danych pochodzącej z tekstów, które nie są związane z konkretną dziedziną i nie są równoległe.

Uczenie głębokie: wyzwanie oraz szansa

Aby móc zastosować uczenie głębokie, które wymaga wykorzystania procesorów graficznych (GPU), zespół DASMT zakupił komputery do gier z konsumenckimi GPU. Koordynator projektu Alexander Fraser wspomina: „Urządzenia wyglądały jak komputery dla graczy, miały na przykład zewnętrzne systemy chłodzenia wodą (...). Jednak szybko zdaliśmy sobie sprawę, że musimy zmienić cały program badawczy, aby pracować z modelami głębokiego uczenia się na potrzeby tłumaczeń. Wymagało to wiele wysiłku w drugim i trzecim roku realizacji projektu i wiązało się z zakupem serwerów o dużej wartości. Ostatecznie jednak trud się opłacił”. Rozwiązania DASMT przydadzą się dostawcom usług tłumaczeniowych, a także dla instytucjom naukowym, ponieważ adaptacja do dziedzin ma zastosowanie do wszystkich systemów przetwarzania języka naturalnego i wielu obszarów badań nad sztuczną inteligencją.

Kompleksowe wyniki w dziedzinie tłumaczenia maszynowego

System DASMT umożliwił poprawę jakości tłumaczenia na języki o bogatej morfologii, w których stosowane są klasyfikatory. Następnie uczeni zajęli się neuronowym tłumaczeniem maszynowym (NMT), nową techniką, która pozwala przezwyciężyć niektóre ograniczenia statystycznego tłumaczenia maszynowego opartego na frazach. Przeprowadzili w tym zakresie ważne prace, zarówno nad generalizacją fleksyjną, jak i poprawą reprezentacji językowej, a także nad szybkimi algorytmami trenującymi. Ku swemu zaskoczeniu, uczeni stwierdzili, że możliwe jest trenowanie systemów tłumaczenia maszynowego bez stosowania danych równoległych. Ponadto analizowali tłumaczenia dokumentów, wykorzystując pełny kontekst i uzyskując w ten sposób lepsze modelowanie. Projekt skupił się również na kilku językach, dla których nie są dostępne obszerniejsze zasoby cyfrowe, takich jak hiligaynon, ważny język z grupy języków filipińskich. Dzięki specjalnym studiom przypadków dotyczącym języka górnołużyckiego (język słowiańskiej mniejszości narodowej zamieszkującej Niemcy) i czuwaskiego (język mniejszości narodowej z Rosji) zespołowi udało się pogłębić badania nad skutecznym wstępnym trenowaniem nienadzorowanego NMT. Innym osiągnięciem zespołu DASMT jest stworzenie skutecznego systemu wykrywania mowy nienawiści. Zespół DASMT udostępnił opracowane przez siebie systemy na zasadach otwartoźródłowych i działa na rzecz upowszechnienia wyników badań wśród naukowców zajmujących się tłumaczeniem maszynowym i przetwarzaniem języka naturalnego w kontekstach wielojęzycznych. „W przyszłości będziemy ubiegać się o dalsze finansowanie badań zarówno ze środków europejskich, jak i krajowych, a także założymy spółkę spin-off, która będzie koncentrować się zarówno na sektorze komercyjnym, jak i non-profit, ponieważ w obu obserwujemy duże zainteresowanie naszymi ulepszonymi modelami wielojęzycznymi”, tłumaczy Fraser.

Słowa kluczowe

DASMT, statystyczne tłumaczenie maszynowe, tłumaczenie automatyczne, tłumaczenie, korpusy równoległe, uczenie głębokie, język, wielojęzyczne

Znajdź inne artykuły w tej samej dziedzinie zastosowania