Nowe metody adaptacji głosu ułatwiają wielojęzyczną komunikację w Europie
Celem projektu CLSASTS (Rapid cross-lingual speaker adaptation for statistical text-to-speech systems), finansowanego ze środków UE, było dopracowanie spersonalizowanych aplikacji przekształcających mowę na mowę. Badacze dążyli do rozszerzenia przekształcania tekstu na mowę przy pomocy nowych syntezatorów statystycznych (STS). W ramach projektu opracowano nowe systemy STS działające w języku angielskim i tureckim oraz poddano je szeroko zakrojonym testom jakości i zrozumiałości. W przypadku systemu tureckiego zebrano 10 godzin studyjnych nagrań głosowych, zarejestrowanych przez 3 zawodowych spikerów. Dla języka tego utworzono algorytmy generowania wymowy, przetwarzania tekstu i analizy składniowej. Testy wykazały, że jakość i zrozumiałość tureckiego systemu STS jest równie wysoka co jego angielskiego odpowiednika. Zbudowano nowy hybrydowy system statystyczno-korpusowy, który wykorzystuje strukturę morfologiczną języka tureckiego. System ten cechuje się lepszą jakością mowy niż podstawowy system STS, przy minimalnym zwiększeniu wymagań dotyczących pamięci. Dane zebrane z tureckich serwisów informacyjnych i od studentów tureckich uczelni pozwoliły na stworzenie bazy 70 mówców płci męskiej i 70 płci żeńskiej. Ponadto zespół CLSASTS opracował algorytmy adaptacji mówcy oparte na nowej bajesowskiej technice "eigenvoice". Ta ostatnia, w połączeniu z algorytmem "najbliższego sąsiada", pozwoliła na uzyskanie znacznie wyższego podobieństwa mówców. Algorytm "najbliższego sąsiada" sprawdził się równie dobrze co metoda "jednego najbliższego sąsiada". Ponadto nieliniowe metody zmniejszania wymiaru nie skutkowały poprawą wydajności w porównaniu z systemem odniesienia. Biorąc pod uwagę dużą liczbę języków używanych w Europie, projekt CLSASTS powinien mieć ważne implikacje społeczno-ekonomiczne oraz przyczynić się do usprawnienia komunikacji między krajami UE. Wkład projektu w rozwój technik STS zapewni Europie przewagę konkurencyjną w tej dziedzinie, wspierając tworzenie nowych firm i uruchamianie produkcji komercyjnej.
Słowa kluczowe
Adaptacja głosu, komunikacja wielojęzyczna, statystyczny syntezator mowy, translacja mowy, adaptacja mówcy