Już niedługo na naszych ekranach mogą zagościć „realatary”
Jeśli osoby niesłyszące mają w pełni i na równych prawach uczestniczyć w życiu społecznym, muszą mieć zapewniony dostęp do informacji, komunikacji i wiedzy. Celem dyrektywy o audiowizualnych usługach medialnych(odnośnik otworzy się w nowym oknie) jest zapewnienie, aby dostępne w każdym państwie członkowskim UE usługi medialne przyczyniały się do osiągnięcia ideałów równości i dostępności w odniesieniu do dystrybucji i dostępności treści. Przeszkodą w osiągnięciu tego celu jest kosztowność produkcji w wersjach tłumaczonych na język migowy, dlatego też wiele firm ma w swojej ofercie znikomą ilość treści dla osób niesłyszących, a co więcej, są one często emitowane późnym wieczorem. Sytuację na rynku medialnym może zmienić technologia zaproponowana w finansowanym przez UE projekcie Content4All(odnośnik otworzy się w nowym oknie), która sprawi, że treści będą bardziej dostępne dla osób niesłyszących dzięki automatycznemu tłumaczeniu programów telewizyjnych na język migowy. W tym wypadku innowację stanowi „tłumacz”, który jest trójwymiarowym awatarem będącym odwzorowaną z fotograficzną dokładnością ludzką postacią. „Chcieliśmy osiągnąć dwa cele. Po pierwsze celowaliśmy w opracowanie taniego rozwiązania umożliwiającego tworzenie treści dla widzów słyszących w wersji z tłumaczem języka migowego, który nie wpływa negatywnie na odbiór przez widzów słyszących. Po drugie zależało nam na opracowaniu zestawów danych i algorytmów na potrzeby analizy procesu tworzenia treści tłumaczonych automatycznie na język migowy”, zaznacza Giacomo Inches, koordynator projektu i technolog ds. innowacji w Fincons Group.
Realatar – awatar jak żywy
Awatar powstaje w innowacyjnym studiu z wielokamerowym systemem, w którym rejestruje się, a następnie przetwarza za pomocą algorytmów sztucznej inteligencji ruchy(odnośnik otworzy się w nowym oknie) rzeczywistych osób. Efekt końcowy tej pracy to trójwymiarowy fotorealistyczny awatar, nazwany „realatarem”, który może być wykorzystywany w strumieniowej transmisji wideo. Jak wyjaśnia Inches: „Podczas gdy automatyczne generowanie języka migowego było przedmiotem badań laboratoryjnych, bez perspektywy komercjalizacji, my skupiliśmy się na nowej koncepcji – »zdalnego studia« dla nadawców, w którym tłumacze języka migowego mogliby wykonywać swoją pracę bez konieczności przyjazdu do studia nadawcy”. Zaoszczędzony w ten sposób czas można by spożytkować na tworzenie większej ilości treści dla osób niesłyszących. Technologie wykorzystane w projekcie opierają się zaawansowanych algorytmach uczenia głębokiego i uczenia maszynowego. Dzięki nim komputer może obserwować duże ilości danych, a na podstawie instrukcji i przykładów algorytmy są w stanie zapewnić pożądany rezultat. „Zastosowane w projekcie algorytmy pomogły w odtworzeniu rzeczywistej osoby w formie wirtualnej postaci w czasie rzeczywistym za pomocą stworzonej na te potrzeby aplikacji HbbTV(odnośnik otworzy się w nowym oknie)”, dodaje Inches. To rozwiązanie oferuje nadawcom telewizyjnym niedrogą i zrównoważoną metodę tworzenia programów w języku migowym, co ostatecznie otwiera drogę do zwiększonej produkcji tego typu treści.
Dalsze kroki i ważne osiągnięcia
„Innowacyjny charakter tej koncepcji został wyróżniony prestiżową nagrodą NAB Technology Innovation Award(odnośnik otworzy się w nowym oknie) przyznaną podczas konferencji Broadcast Engineering and Information Technology Conference w 2020 roku”, informuje Inches. Dodatkowo, dzięki pomocy organizacji partnerskich, zespół projektu mógł zaangażować osoby niesłyszące w Belgii i Szwajcarii do przetestowania komponentów technologicznych nowego rozwiązania. Omówienie tych zagadnień pozwoliło uczonym uruchomić w ramach europejskiej współpracy naukowo-technicznej (COST) platformę LEAD-ME(odnośnik otworzy się w nowym oknie), która zrzesza europejskie zainteresowane strony w dziedzinie dostępności mediów. Uczestnicy dwóch innych projektów, EASIER(odnośnik otworzy się w nowym oknie) oraz SignON(odnośnik otworzy się w nowym oknie), mając już do dyspozycji kolekcję treści w języku migowym, zamierzają nie tylko wykorzystać, ale też rozszerzyć osiągnięcia projektu Content4All. Co więcej, firma Fincons Group, koordynator i główny partner branżowy projektu, zajmuje się analizą konkretnych możliwości wykorzystania wyników projektu w działalności swojej sieci. Jak podsumowuje Inches: „W dłuższej perspektywie wymiernym rezultatem projektu powinna być możliwość korzystania z zasobów filmów wideo z tekstem dopasowanym do języka migowego na potrzeby badań i przedkomercyjnych zastosowań, co przyczyni się do przyszłego rozwoju wszystkich algorytmów umożliwiających rozpoznawanie języka migowego”.