Wyodrębnianie sygnału w szumie za pomocą sieci neuronowych
Każdego dnia do ludzkich uszu dociera wiele dźwięków, ale nawet w przesyconych nimi środowiskach potrafimy z niezwykłą dokładnością lokalizować źródło dźwięku istotnego pod względem behawioralnym, np. znajomy głos w zatłoczonym pomieszczeniu. Wciąż niewiele wiadomo o mechanizmach neuronalnych leżących u podstaw przestrzennej lokalizacji rzeczywistych, złożonych dźwięków w hałaśliwych miejscach. Dlatego implanty ślimakowe słabo filtrują sygnał z szumu, co niekorzystnie wpływa na osoby niedosłyszące, obniża ich jakość życia oraz zmniejsza możliwości zatrudnienia. W ramach realizowanego przy wsparciu działań „Maria Skłodowska-Curie” (MSCA) projektu SOLOC wykorzystano metody obliczeniowe i eksperymentalne, aby dokładniej zbadać mechanizmy lokalizacji dźwięku przez mózg. Wyniki zostaną wykorzystane do opracowania strategii przetwarzania sygnałów w implantach ślimakowych tak, aby symulować ludzkie mechanizmy lokalizacji dźwięku.
Sygnał i szum w implantach ślimakowych
Jak mówi Kiki van der Heijden, stypendystka MSCA prowadząca badania w Donders Institute for Brain, Cognition and Behaviour na koordynującym projekt Uniwersytecie im. Radbouda w Nijmegen(odnośnik otworzy się w nowym oknie), „z powodu ograniczeń technicznych aparatów słuchowych następuje utrata kluczowych informacji czasowych i spektralnych, gdy sygnały dźwiękowe są przekazywane do nerwu słuchowego użytkownika implantu ślimakowego jako seria impulsów. Powstała w ten sposób niepełna wersja informacji dźwiękowych nie jest wystarczająca, aby mózg mógł filtrować interesujące źródła dźwięku i tłumić szumy tła”. Implanty ślimakowe z powodzeniem przetwarzają izolowaną mowę, natomiast jeśli w tle występuje szum lub hałas, dźwięki są zniekształcone. „Badania powinny dotyczyć rzeczywistych dźwięków w rzeczywistych warunkach, aby możliwe było zoptymalizowanie strategii przetwarzania dźwięku pod kątem technologii wspomagającej. Dlatego bardzo ważnym etapem projektu było stworzenie bazy danych zawierającej przestrzenne, rzeczywiste dźwięki. Zostanie ona upubliczniona w celu wsparcia dalszych badań w zakresie neuronauki, słyszenia i modelowania obliczeniowego”, wyjaśnia van der Heijden.
Inspirowane neurobiologią, konwolucyjne sieci neuronowe umożliwiają wyodrębnianie informacji
W ramach projektu wykorzystano bazę danych i sztuczną inteligencję, aby lepiej zrozumieć przetwarzanie dźwięku w rzeczywistych warunkach, a wnioski z badań zostaną wykorzystane do optymalizacji strategii przetwarzania dźwięku w implantach ślimakowych. Głębokie sieci neuronowe (ang. deep neural network, DNN) są algorytmami trenowanymi do zgłębiania reprezentacji danych na coraz wyższych poziomach abstrakcji – czyli na coraz większej „głębokości” – w sposób podobny do ludzkiego mózgu. Dzięki temu mogą one wykonywać złożone, wielowymiarowe zadania, takie jak identyfikacja obrazu czy lokalizacja dźwięku. Głębokie uczenie się stało się złotym standardem wśród algorytmów uczenia maszynowego. Dzięki konwolucyjnym sieciom neuronowym (ang. convolutional neural network, CNN), będących specyficznym i bardzo efektywnym typem DNN, można wyodrębnić z danych najważniejsze informacje za pomocą serii operacji splotowych. „Opracowaliśmy inspirowaną neurobiologią CNN przeszkoloną na rzeczywistych dźwiękach z naszej bazy danych. Wykazaliśmy(odnośnik otworzy się w nowym oknie), że taka sieć może z powodzeniem symulować zachowanie człowieka w zakresie lokalizacji dźwięku. Wykorzystaliśmy również inwazyjne nagrania wewnątrzczaszkowe wykonane u pacjentów neurochirurgicznych, którzy słuchali nagrań wypowiedzi dwóch osób znajdujących się w różnych miejscach, aby lepiej zrozumieć to, jak mózg przetwarza mowę i szum”, dodaje van der Heijden.
Wykorzystanie CNN w implantach ślimakowych – postęp w lokalizacji źródła dźwięku przez osoby niedosłyszące
Sukces projektu potwierdza, że multidyscyplinarne projekty badawcze na styku neuronauki, modelowania obliczeniowego i badań klinicznych mają kluczowe znaczenie dla rozwoju nowych technologii wspomagających. W ramach projektu SOLOC stworzono oparte na biologii i warunkach rzeczywistych modele obliczeniowe przestrzennego przetwarzania dźwięku w ludzkim mózgu. Dzięki nim możliwa będzie optymalizacja algorytmów maksymalizujących dostępność sygnałów przestrzennych dla osób niedosłyszących poprzez wzmocnienie połączenia przez implant ślimakowy między mózgiem a otoczeniem.