Sztuczna inteligencja stanie się głosem osób z zaburzeniami mowy

Wśród nas żyją osoby, które potrzebują dostępu do technologii głosowych. Co możemy zrobić, by zapewnić go tym, dla których jest niezbędny do codziennego funkcjonowania? Zespół finansowanego ze środków Unii Europejskiej projektu NUVOIC opracował oparte na sztucznej inteligencji rozwiązanie dla osób z zaburzeniami mowy i niepełnosprawnościami ruchowymi, które zapewnia im większą niezależność.

Gospodarka cyfrowa

Jesteśmy obecnie świadkami prawdziwego rozkwitu technologii głosowych. Jak dowiadujemy się z wyników badania przeprowadzonego w 2023 roku(odnośnik otworzy się w nowym oknie), aż 80 % spośród najlepszych przedsiębiorstw stosuje je w swoich organizacjach. Coraz częściej używamy automatycznego rozpoznawania mowy w celu prowadzenia rozmów z naszymi wirtualnymi asystentami i urządzeniami w naszych domach. Dzięki takim rozwiązaniom wyszukujemy informacje, robimy zakupy w sieci, a nawet transkrybujemy nasze rozmowy. Niestety, do tej pory owoce tej rewolucji jedynie okazjonalnie sprzyjały włączeniu społecznemu. „Jak na ironię, wiele osób, które w największym stopniu potrzebują tego rodzaju technologii – między innymi osoby z niepełnosprawnościami, które potrzebują pomocy z wyłączaniem światła lub włączaniem telewizora – najczęściej nie mają do nich dostępu, ponieważ cierpią również na zaburzenia mowy”, wyjaśnia Sara Smolley, wiceprezeska i współzałożycielka start-upu Voiceitt(odnośnik otworzy się w nowym oknie) zajmującego się technologią automatycznego rozpoznawania mowy. Osoby z zaburzeniami mowy stanowią zróżnicowaną społeczność. Należą do niej między innymi pacjenci cierpiący na zespół Downa i porażenie mózgowe, ale także wiele osób dorosłych w podeszłym wieku. Dzięki finansowanemu ze środków Unii Europejskiej projektowi NUVOIC, spółka Voiceitt umożliwia wielu osobom z tej zróżnicowanej grupy wyrażanie siebie na nowe sposoby oraz daje możliwość interakcji. Nazwa projektu NUVOIC oznacza w języku angielskim nowy głos. Jak wyjaśnia Smolley, projektowi przyświecały dwa główne cele: „Chcieliśmy umożliwić osobom z zaburzeniami mowy swobodne wyrażanie siebie i zapewnić im większą niezależność, dając im dostęp do technologii głosowej opartej na sztucznej inteligencji”.

Przełom technologiczny

Opracowane przez zespół spółki Voiceitt rozwiązanie pierwszej generacji dawało użytkownikom możliwość trenowania aplikacji przy pomocy codziennych zwrotów i wypowiedzi, których mogli następnie używać do wyrażania siebie. Dzięki uzyskaniu dofinansowania w ramach projektu NUVOIC, zespół był w stanie dopracować swoją koncepcję. Nowa internetowa aplikacja Voiceitt, która jest już dostępna na rynku(odnośnik otworzy się w nowym oknie), jest w stanie rozpoznawać spontaniczne wypowiedzi po krótkim treningu, który polega na nagraniu przez użytkowników około 400 krótkich zdań i wypowiedzi. Rozpoznana mowa może zostać przetranskrybowana lub odczytana przez syntezator mowy, co pozwala na rozmowę z innymi osobami. Narzędzie może także posłużyć do interakcji z narzędziami SI, takimi jak na przykład ChatGPT. „Dzięki naszej aplikacji użytkownik może zapytać na przykład »Jaka jest teraz pogoda w Brukseli?« lub poprosić o pomoc w zaplanowaniu przyjęcia urodzinowego”, zauważa Smolley. Realizacja tego założenia wymagała od zespołu projektu NUVOIC pod kierownictwem Karten Network(odnośnik otworzy się w nowym oknie), jednego z partnerów konsorcjum, zebrania wielu próbek nagrań głosowych osób z zaburzeniami mowy. Te zestawy danych zostały następnie wykorzystane w połączeniu z najnowocześniejszymi technikami uczenia maszynowego w celu opracowania nowatorskiego systemu rozpoznawania mowy.

Nowe sposoby komunikacji

Oprócz niezależnej aplikacji, zespół opracował także interfejs programowania aplikacji (API). Wraz z partnerami, między innymi ze spółką imec(odnośnik otworzy się w nowym oknie), uczestnicy projektu pracowali nad integracjami, które mogłyby jeszcze bardziej zwiększyć niezależność użytkowników i zapewnić im nowe sposoby komunikacji z innymi osobami. Jednym z przykładów jest ich współpraca z Cisco integrująca technologię Voiceitt z rozwiązaniem Webex(odnośnik otworzy się w nowym oknie). Dzięki powstałemu dodatkowi, użytkownicy z zaburzeniami mowy mową mówić swoim normalnym głosem podczas spotkania, a ich słowa są transkrybowane i wyświetlane w czasie rzeczywistym innym uczestnikom. Zespół spółki Voiceitt współpracował również z gigantem branży e-commerce, spółką Procter & Gamble(odnośnik otworzy się w nowym oknie) (strona w języku francuskim), aby zbadać możliwości wykorzystania technologii do zakupów głosowych.

Szerokie grono potencjalnych użytkowników

Możliwości nowatorskiego rozwiązania nie kończą się na osobach z zaburzeniami mowy. Zdaniem niektórych ta technologia może przyczynić się do usprawnienia interakcji głosowych wielu innych grup. „Jesteśmy żywo zainteresowani zastosowaniem tej technologii d akcentów i dialektów”, wyjaśnia Smolley. „Przeprowadziliśmy również badania pilotażowe we współpracy z przedsiębiorstwem zainteresowanym wykorzystaniem technologii głosowej na rzecz osób niesłyszących”. Obecnie zespół przygotowuje się do rozszerzenia oferty na inne języki europejskie. „W kontekście tych planów aktywnie poszukujemy partnerów do współpracy w całej Europie. Poszukujemy także osób zainteresowanych testowaniem technologii lub dostarczania próbek głosu”, dodaje Smolley.