Poszukiwanie igły w stogu siana

Rozmaite naturalne odgłosy pomieszane z szumem tła mogą być dość trudne do usunięcia podczas realizacji nagrań dźwiękowych. Przed zaoferowaniem metod przetwarzania sygnału dźwiękowego w oparciu o statystyki, naukowcy prowadzący finansowany przez UE projekt BLISS, starali się zanalizować ten problem z różnych perspektyw podejścia.

Gospodarka cyfrowa

Stosunkowo hałaśliwe środowiska organizowanych przyjęć koktajlowych i innych, są skrajnymi przykładami wyzwań charakterystycznych dla separacji dźwięków. Słuchacze starają się zazwyczaj odróżnić pojedyncze głosy od prowadzonych rozmów, szczęku szklanek i grającej muzyki. Problem ten nie dotyczy specyficznie ludzi, bowiem rozróżnienie dźwięków z takiej mieszaniny stanowi także zasadnicze wyzwanie dla algorytmów maszynowych interpretujących dźwięki. Na przykład, najnowsze programy rozpoznawania mowy są typowo bliskie perfekcji, jeśli osoba, która mówi, siedzi sama w cichym pokoju, natomiast pracują znacznie gorzej w warunkach realnego świata, w obecności innych jednoczesnych źródeł dźwięków. Głos określonego mówcy może być wtedy wybrany na ślepo w oparciu o niezależność sygnałów dźwiękowych. Jednakże w praktyce, uwzględnienie niezależnych sygnałów doprowadza w większym lub mniejszym stopniu do zgrubnej aproksymacji, jeśli jest to w ogóle możliwe. Interesujący jest fakt, iż wstępne informacje na temat źródeł sygnałów – takie jak odległości między nimi – mogą zredukować stopień złożoności rozwiązania i prowadzić do uproszczonych algorytmów. Problem sprowadza się wówczas do jednego pytania: W jaki sposób można dokładnie zidentyfikować, które z sygnałów głosowych powinny być pogrupowane razem, a które interpretowane indywidualnie. Dzięki ustaleniu kosztów różnych możliwych rezultatów, partnerzy projektu BLISS mieli sposobność podejmowania najlepszej decyzji w oparciu o dostępne informacje posługując się tzw. statystykami bayesowskimi. Na początku realizowali oni przybliżanie zależności pomiędzy źródłami sygnałów przy pomocy równań matematycznych. Uzyskane modele wykorzystano do usunięcia lub wytłumienia zależności tak, by pozostałe sygnały stały się łatwiejsze do rozseparowania. Zasadniczą niekorzystną cechą metod bayesowskich jest ich złożone wyliczanie, co w przeszłości ograniczyło ich zastosowanie do rozwiązywania prostych problemów ślepej separacji. Niemniej jednak, zaproponowane podejście nie jest związane z żadnym specyficznym typem sygnału. Jego zastosowania obejmują separację nagrań stereofonicznych dla aparatów słuchowych, fal mózgowych pochodzących od czujników medycznych oraz sygnałów radiowych z sieci telekomunikacyjnych.