Ocena jakości mowy audiowizualnej

Brak synchronizacji obrazu wideo z dźwiękiem jest dużą niedogodnością dla użytkowników technologii. Nowe badanie dotyczące skutecznego pomiaru asynchronicznych sygnałów audiowizualnych powinno pomóc rozwiązać ten problem.

Technologie przemysłowe

Zaawansowana technologicznie komunikacja audiowizualna staje się bardzo popularną formą wymiany informacji, a jej przykładami są telekonferencje satelitarne i rozmowy odbywane przez smartfony. Choć zsynchronizowanie obrazu i dźwięku, niezbędne dla efektywności tego rodzaju rozwiązań wydaje się proste, jest bardzo skomplikowane. Jeżeli użytkownicy zauważają brak synchronizacji, mogą przejść się na inną formę komunikacji. W tym kontekście, celem finansowanego ze środków UE projektu PERCQUALAVS było zmierzenie synchronizacji elementu wizualnego i dźwiękowego w takich technologiach. Wykorzystując takie dziedziny, jak komputerowe przetwarzanie obrazu, nauki poznawcze, uczenie maszynowe i przetwarzanie mowy, badacze przygotowali model umożliwiający przewidywanie subiektywnej jakości mowy audiowizualnej. Aby zrealizować te zamierzenia, projekt podzielono na cztery części. W ramach pierwszej z nich przyjrzano się możliwościom wyodrębnienia głównych cech audiowizualnych z sygnału wejściowego, aby zastosować automatyczną detekcję asynchroniczności. W drugiej części zgromadzono dane dotyczące subiektywnej reakcji percepcyjnej poprzez szereg specjalnych doświadczeń. Trzecia część poświęcona była analizie tych reakcji percepcyjnych, a czwarta opracowaniu modułu uczenia maszynowego, który przewiduje percepcję asynchronicznych sygnałów przez człowieka. Zespół badawczy z powodzeniem opracował komputerowe ekstraktory cech wizualnych, które śledzą ruch ust w czasie rzeczywistym i wyodrębniają przydatne dane, a także stworzył zestawy narzędzi przetwarzania mowy pomagające w analizie tych danych. Innym ważnym osiągnięciem projektu było opracowanie oprogramowania do przetwarzania wyodrębnionych cech w celu pomiaru synchroniczności i odwzorowania wyników. Umożliwia ono porównywanie reakcji percepcyjnych użytkowników oraz automatyczne generowanie wyników. Choć ze względu na różne ograniczenia techniczne i czasowe nie udało się w pełni rozpowszechnić informacji o wynikach prac, to położyły one podwaliny pod dalsze badania w tej dziedzinie. Stanowią one krok w kierunku oceny i udoskonalenia technologii audiowizualnej, która rozwija się dynamicznie na całym świecie.

Słowa kluczowe

Audiowizualne, jakość mowy, asynchroniczne, komunikacja, uczenie się maszyny, ludzka percepcja, dane asynchroniczne

A Model for Predicting Perceived Quality of Audio-visual Speech based on Automatic Assessment of Intermodal Asynchrony

Ocena jakości mowy audiowizualnej

Słowa kluczowe

Znajdź inne artykuły w tej samej dziedzinie zastosowania

Udostępnij tę stronę

Pobierz