Przesuwanie granic możliwości tłumaczenia maszynowego w dziedzinie medycyny

Naukowcy z UE zbliżyli nas o krok do w pełni zautomatyzowanego tłumaczenia maszynowego dzięki systemowi neuronowemu, zdolnemu do tłumaczenia tekstów dotyczących zdrowia publicznego z języka angielskiego na czeski, niemiecki, polski i rumuński.

Gospodarka cyfrowa

Informacje publikowane w internecie są często dostępne tylko w kilku językach, ponieważ organizacje nie mogą sobie pozwolić na ich przetłumaczenie na więcej języków. Jednak naukowcy z finansowanego ze środków UE projektu Health in My Language (HimL) przybliżyli nas o krok do stworzenia w pełni zautomatyzowanego tłumaczenia maszynowego, współpracując ze szkockimi i międzynarodowymi organizacjami zdrowia publicznego w celu zbudowania systemu dostosowanego do dziedziny medycyny. „Społeczności imigrantów mogą w ograniczonym stopniu znać lokalny język – tymczasem potrzebują informacji na temat lokalnych usług zdrowotnych, które nie są dostępne w ich języku”, mówi Barry Haddow, koordynator projektu i starszy pracownik naukowy wydziału informatyki Uniwersytetu Edynburskiego. „Informacje o najlepszych praktykach w opiece zdrowotnej, będące wynikiem najnowszych badań, są rozpowszechniane głównie w języku angielskim, ale konsumenci chcieliby mieć dostęp do nowych metaanaliz w swoim własnym języku”. Uczenie głębokie Zespół projektu HimL badał metody poprawy jakości tłumaczeń maszynowych i włączył je do nowego systemu umożliwiającego tłumaczenie z języka angielskiego na czeski, niemiecki, polski i rumuński. Uczeni rozpoczęli od podejścia składniowego lub opartego na frazach, ale szybko przeszli do tłumaczenia maszynowego bazującego na sieci neuronowej (NMT), podejścia opartego na uczeniu głębokim, które pojawiło się w trakcie realizacji projektu. Co roku publikowano nowe wersje do użytku partnerów projektu NHS 24, szkockiej krajowej służby zdrowia oraz Cochrane, organizacji pozarządowej, która ułatwia dostęp do najnowszych badań dotyczących zdrowia. Wyniki zostały dokładnie ocenione za pomocą ankiet przeprowadzonych wśród użytkowników oraz testów ukierunkowanych na aplikacje. Udoskonalenia wprowadzono w trzech głównych obszarach: dostosowanie do dziedziny (dostosowanie tłumaczenia do specyficznej terminologii zdrowia publicznego); semantyka i zapewnienie dokładności tłumaczenia; morfologia i zapewnienie prawidłowego opracowania wariantów morfologicznych. „W języku angielskim morfologia jest ograniczona, ale w wielu językach europejskich, takich jak czeski i polski, występują różne formy czasownika i rzeczownika w zależności od użycia. Jeśli się je pomyli, może to zmienić znaczenie tekstu”, mówi dr Haddow. Użytkownicy zostali poproszeni o porównanie wyników uzyskanych przez system HimL ze znanym systemem internetowym. „Nasze systemy generowały wyniki we wszystkich parach językowych”, mówi dr Haddow, „chociaż niezwykle wysoka jakość wymagana przez użytkowników NHS 24 i Cochrane oznacza, że nie jesteśmy jeszcze w stanie całkowicie zautomatyzować tłumaczeń”. Mniejsza konieczność interwencji człowieka Zespół przyjrzał się również działaniu systemów HimL w połączeniu z tzw. post-edycją – tłumaczenie maszynowe jest wykorzystywane do stworzenia wersji wstępnej tekstu, która jest następnie edytowana przez człowieka. „Organizacja Cochrane pokazała, że post-edycja z wykorzystaniem systemu HimL w narzędziu MateCat była o 30-40% szybsza niż tłumaczenie od zera w przypadku wszystkich języków z wyjątkiem polskiego”, mówi dr Haddow. „Udało nam się zmniejszyć skalę interwencji człowieka o 30-50%, aby uzyskać tak dobre tłumaczenie, jak w przypadku pracy wykonywanej wyłącznie przez człowieka”. W ramach projektu powstał między innymi korpus medyczny UFAL(odnośnik otworzy się w nowym oknie), standardowy zestaw danych dla systemów szkoleniowych dotyczących tekstów medycznych. Obejmuje on osiem europejskich par językowych, w tym pary obsługiwane przez system HimL. Analiza wyników NMT wykazała, że problemy występujące we wcześniejszych systemach zostały w dużej mierze przezwyciężone, ale systemy te nadal są podatne na takie błędy, jak pomijanie ważnych informacji lub dodawanie nieprawidłowych informacji. „Aby temu zapobiec, używamy techniki zwanej »rekonstrukcją«, dzięki której powinno być możliwe odtworzenie tekstu źródłowego na podstawie wyniku tłumaczenia”, mówi dr Haddow. „Pokazaliśmy również, jak ulepszyć NMT przy użyciu wysokiej jakości słowników oraz jak włączyć semantyczne i składniowe informacje z narzędzi zewnętrznych”.