Sztuczna inteligencja stanie się głosem osób z zaburzeniami mowy
Jesteśmy obecnie świadkami prawdziwego rozkwitu technologii głosowych. Jak dowiadujemy się z wyników badania przeprowadzonego w 2023 roku, aż 80 % spośród najlepszych przedsiębiorstw stosuje je w swoich organizacjach. Coraz częściej używamy automatycznego rozpoznawania mowy w celu prowadzenia rozmów z naszymi wirtualnymi asystentami i urządzeniami w naszych domach. Dzięki takim rozwiązaniom wyszukujemy informacje, robimy zakupy w sieci, a nawet transkrybujemy nasze rozmowy. Niestety, do tej pory owoce tej rewolucji jedynie okazjonalnie sprzyjały włączeniu społecznemu. „Jak na ironię, wiele osób, które w największym stopniu potrzebują tego rodzaju technologii – między innymi osoby z niepełnosprawnościami, które potrzebują pomocy z wyłączaniem światła lub włączaniem telewizora – najczęściej nie mają do nich dostępu, ponieważ cierpią również na zaburzenia mowy”, wyjaśnia Sara Smolley, wiceprezeska i współzałożycielka start-upu Voiceitt zajmującego się technologią automatycznego rozpoznawania mowy. Osoby z zaburzeniami mowy stanowią zróżnicowaną społeczność. Należą do niej między innymi pacjenci cierpiący na zespół Downa i porażenie mózgowe, ale także wiele osób dorosłych w podeszłym wieku. Dzięki finansowanemu ze środków Unii Europejskiej projektowi NUVOIC, spółka Voiceitt umożliwia wielu osobom z tej zróżnicowanej grupy wyrażanie siebie na nowe sposoby oraz daje możliwość interakcji. Nazwa projektu NUVOIC oznacza w języku angielskim nowy głos. Jak wyjaśnia Smolley, projektowi przyświecały dwa główne cele: „Chcieliśmy umożliwić osobom z zaburzeniami mowy swobodne wyrażanie siebie i zapewnić im większą niezależność, dając im dostęp do technologii głosowej opartej na sztucznej inteligencji”.
Przełom technologiczny
Opracowane przez zespół spółki Voiceitt rozwiązanie pierwszej generacji dawało użytkownikom możliwość trenowania aplikacji przy pomocy codziennych zwrotów i wypowiedzi, których mogli następnie używać do wyrażania siebie. Dzięki uzyskaniu dofinansowania w ramach projektu NUVOIC, zespół był w stanie dopracować swoją koncepcję. Nowa internetowa aplikacja Voiceitt, która jest już dostępna na rynku, jest w stanie rozpoznawać spontaniczne wypowiedzi po krótkim treningu, który polega na nagraniu przez użytkowników około 400 krótkich zdań i wypowiedzi. Rozpoznana mowa może zostać przetranskrybowana lub odczytana przez syntezator mowy, co pozwala na rozmowę z innymi osobami. Narzędzie może także posłużyć do interakcji z narzędziami SI, takimi jak na przykład ChatGPT. „Dzięki naszej aplikacji użytkownik może zapytać na przykład »Jaka jest teraz pogoda w Brukseli?« lub poprosić o pomoc w zaplanowaniu przyjęcia urodzinowego”, zauważa Smolley. Realizacja tego założenia wymagała od zespołu projektu NUVOIC pod kierownictwem Karten Network, jednego z partnerów konsorcjum, zebrania wielu próbek nagrań głosowych osób z zaburzeniami mowy. Te zestawy danych zostały następnie wykorzystane w połączeniu z najnowocześniejszymi technikami uczenia maszynowego w celu opracowania nowatorskiego systemu rozpoznawania mowy.
Nowe sposoby komunikacji
Oprócz niezależnej aplikacji, zespół opracował także interfejs programowania aplikacji (API). Wraz z partnerami, między innymi ze spółką imec, uczestnicy projektu pracowali nad integracjami, które mogłyby jeszcze bardziej zwiększyć niezależność użytkowników i zapewnić im nowe sposoby komunikacji z innymi osobami. Jednym z przykładów jest ich współpraca z Cisco integrująca technologię Voiceitt z rozwiązaniem Webex. Dzięki powstałemu dodatkowi, użytkownicy z zaburzeniami mowy mową mówić swoim normalnym głosem podczas spotkania, a ich słowa są transkrybowane i wyświetlane w czasie rzeczywistym innym uczestnikom. Zespół spółki Voiceitt współpracował również z gigantem branży e-commerce, spółką Procter & Gamble (strona w języku francuskim), aby zbadać możliwości wykorzystania technologii do zakupów głosowych.
Szerokie grono potencjalnych użytkowników
Możliwości nowatorskiego rozwiązania nie kończą się na osobach z zaburzeniami mowy. Zdaniem niektórych ta technologia może przyczynić się do usprawnienia interakcji głosowych wielu innych grup. „Jesteśmy żywo zainteresowani zastosowaniem tej technologii d akcentów i dialektów”, wyjaśnia Smolley. „Przeprowadziliśmy również badania pilotażowe we współpracy z przedsiębiorstwem zainteresowanym wykorzystaniem technologii głosowej na rzecz osób niesłyszących”. Obecnie zespół przygotowuje się do rozszerzenia oferty na inne języki europejskie. „W kontekście tych planów aktywnie poszukujemy partnerów do współpracy w całej Europie. Poszukujemy także osób zainteresowanych testowaniem technologii lub dostarczania próbek głosu”, dodaje Smolley.
Słowa kluczowe
NUVOIC, automatyczne rozpoznawanie mowy, ASR, zaburzenie mowy, zaburzenia mowy, wirtualny asystent, interfejs programowania aplikacji, API