Przesuwanie granic tłumaczeń automatycznych

W obecnym zglobalizowanym, połączonym świecie potrzebne są coraz doskonalsze narzędzia do tłumaczenia automatycznego. Wykorzystując uczenie głębokie, pewien zespół badawczy tworzy rozwiązanie w zakresie statystycznego tłumaczenia maszynowego.

Gospodarka cyfrowa

Błyskawiczne tłumaczenie na języki europejskie jest niezbędne do skutecznego rządzenia w UE, a także w działalności naukowej i komercyjnej. Aby je umożliwić, powszechnie stosuje się podejścia bazujące na technikach uczenia maszynowego, które pozwalają na analizę korpusów tekstów źródłowych i ich tłumaczeń. Oznacza to, że możliwe jest otrzymanie lepszej jakości tłumaczeń w dziedzinach, dla których dostępne są obszerne równoległe korpusy tekstów źródłowych i ich przekładów, tak jak w przypadku organizacji międzynarodowych i instytucji unijnych. Z kolei w przypadku wielu innych dziedzin, takich jak literatura medyczna czy prawnicza, dla których nie ma dużych korpusów równoległych, jakość tłumaczenia jest nierównomierna i bywa niska. Stosując dwutorowe podejście, zespół finansowanego przez UE projektu DASMT(odnośnik otworzy się w nowym oknie) udoskonalił metody pozyskiwania danych na potrzeby tłumaczenia automatycznego. Uczeni skupili na tym, jak wykorzystać duże, niezwiązane z daną dziedziną korpusy równoległe w systemach tłumaczeniowych specyficznych dla danej dziedziny, a także na wydobyciu i odpowiednim wyważeniu danych pochodzącej z tekstów, które nie są związane z konkretną dziedziną i nie są równoległe.

Uczenie głębokie: wyzwanie oraz szansa

Aby móc zastosować uczenie głębokie, które wymaga wykorzystania procesorów graficznych(odnośnik otworzy się w nowym oknie) (GPU), zespół DASMT zakupił komputery do gier z konsumenckimi GPU. Koordynator projektu Alexander Fraser wspomina: „Urządzenia wyglądały jak komputery dla graczy, miały na przykład zewnętrzne systemy chłodzenia wodą (...). Jednak szybko zdaliśmy sobie sprawę, że musimy zmienić cały program badawczy, aby pracować z modelami głębokiego uczenia się na potrzeby tłumaczeń. Wymagało to wiele wysiłku w drugim i trzecim roku realizacji projektu i wiązało się z zakupem serwerów o dużej wartości. Ostatecznie jednak trud się opłacił”. Rozwiązania DASMT przydadzą się dostawcom usług tłumaczeniowych, a także dla instytucjom naukowym, ponieważ adaptacja do dziedzin ma zastosowanie do wszystkich systemów przetwarzania języka naturalnego i wielu obszarów badań nad sztuczną inteligencją.

Kompleksowe wyniki w dziedzinie tłumaczenia maszynowego

System DASMT umożliwił poprawę jakości tłumaczenia na języki o bogatej morfologii, w których stosowane są klasyfikatory. Następnie uczeni zajęli się neuronowym tłumaczeniem maszynowym(odnośnik otworzy się w nowym oknie) (NMT), nową techniką, która pozwala przezwyciężyć niektóre ograniczenia statystycznego tłumaczenia maszynowego opartego na frazach. Przeprowadzili w tym zakresie ważne prace, zarówno nad generalizacją fleksyjną, jak i poprawą reprezentacji językowej, a także nad szybkimi algorytmami trenującymi. Ku swemu zaskoczeniu, uczeni stwierdzili, że możliwe jest trenowanie systemów tłumaczenia maszynowego bez stosowania danych równoległych. Ponadto analizowali tłumaczenia dokumentów, wykorzystując pełny kontekst i uzyskując w ten sposób lepsze modelowanie. Projekt skupił się również na kilku językach, dla których nie są dostępne obszerniejsze zasoby cyfrowe, takich jak hiligaynon(odnośnik otworzy się w nowym oknie), ważny język z grupy języków filipińskich. Dzięki specjalnym studiom przypadków dotyczącym języka górnołużyckiego(odnośnik otworzy się w nowym oknie) (język słowiańskiej mniejszości narodowej zamieszkującej Niemcy) i czuwaskiego(odnośnik otworzy się w nowym oknie) (język mniejszości narodowej z Rosji) zespołowi udało się pogłębić badania nad skutecznym wstępnym trenowaniem nienadzorowanego NMT. Innym osiągnięciem zespołu DASMT jest stworzenie skutecznego systemu wykrywania mowy nienawiści(odnośnik otworzy się w nowym oknie). Zespół DASMT udostępnił opracowane przez siebie systemy na zasadach otwartoźródłowych i działa na rzecz upowszechnienia wyników badań wśród naukowców zajmujących się tłumaczeniem maszynowym i przetwarzaniem języka naturalnego w kontekstach wielojęzycznych. „W przyszłości będziemy ubiegać się o dalsze finansowanie badań zarówno ze środków europejskich, jak i krajowych, a także założymy spółkę spin-off, która będzie koncentrować się zarówno na sektorze komercyjnym, jak i non-profit, ponieważ w obu obserwujemy duże zainteresowanie naszymi ulepszonymi modelami wielojęzycznymi”, tłumaczy Fraser.