Ocena jakości mowy audiowizualnej
Zaawansowana technologicznie komunikacja audiowizualna staje się bardzo popularną formą wymiany informacji, a jej przykładami są telekonferencje satelitarne i rozmowy odbywane przez smartfony. Choć zsynchronizowanie obrazu i dźwięku, niezbędne dla efektywności tego rodzaju rozwiązań wydaje się proste, jest bardzo skomplikowane. Jeżeli użytkownicy zauważają brak synchronizacji, mogą przejść się na inną formę komunikacji. W tym kontekście, celem finansowanego ze środków UE projektu PERCQUALAVS było zmierzenie synchronizacji elementu wizualnego i dźwiękowego w takich technologiach. Wykorzystując takie dziedziny, jak komputerowe przetwarzanie obrazu, nauki poznawcze, uczenie maszynowe i przetwarzanie mowy, badacze przygotowali model umożliwiający przewidywanie subiektywnej jakości mowy audiowizualnej. Aby zrealizować te zamierzenia, projekt podzielono na cztery części. W ramach pierwszej z nich przyjrzano się możliwościom wyodrębnienia głównych cech audiowizualnych z sygnału wejściowego, aby zastosować automatyczną detekcję asynchroniczności. W drugiej części zgromadzono dane dotyczące subiektywnej reakcji percepcyjnej poprzez szereg specjalnych doświadczeń. Trzecia część poświęcona była analizie tych reakcji percepcyjnych, a czwarta opracowaniu modułu uczenia maszynowego, który przewiduje percepcję asynchronicznych sygnałów przez człowieka. Zespół badawczy z powodzeniem opracował komputerowe ekstraktory cech wizualnych, które śledzą ruch ust w czasie rzeczywistym i wyodrębniają przydatne dane, a także stworzył zestawy narzędzi przetwarzania mowy pomagające w analizie tych danych. Innym ważnym osiągnięciem projektu było opracowanie oprogramowania do przetwarzania wyodrębnionych cech w celu pomiaru synchroniczności i odwzorowania wyników. Umożliwia ono porównywanie reakcji percepcyjnych użytkowników oraz automatyczne generowanie wyników. Choć ze względu na różne ograniczenia techniczne i czasowe nie udało się w pełni rozpowszechnić informacji o wynikach prac, to położyły one podwaliny pod dalsze badania w tej dziedzinie. Stanowią one krok w kierunku oceny i udoskonalenia technologii audiowizualnej, która rozwija się dynamicznie na całym świecie.
Słowa kluczowe
Audiowizualne, jakość mowy, asynchroniczne, komunikacja, uczenie się maszyny, ludzka percepcja, dane asynchroniczne