European Commission logo
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS
Zawartość zarchiwizowana w dniu 2024-05-30

Rapid Cross-Lingual Speaker Adaptation for Statistical Text-to-Speech Systems

Article Category

Article available in the following languages:

Nowe metody adaptacji głosu ułatwiają wielojęzyczną komunikację w Europie

W obliczu szybkiej globalizacji oraz potrzeby porozumiewania się w wielu językach, coraz więcej uwagi poświęca się tworzeniu odpowiednich narzędzi i programów. Unijna inicjatywa przyczyniła się do rozwoju tej dziedziny, aby pomóc ludziom w bardziej efektywnej komunikacji.

Gospodarka cyfrowa icon Gospodarka cyfrowa

Celem projektu CLSASTS (Rapid cross-lingual speaker adaptation for statistical text-to-speech systems), finansowanego ze środków UE, było dopracowanie spersonalizowanych aplikacji przekształcających mowę na mowę. Badacze dążyli do rozszerzenia przekształcania tekstu na mowę przy pomocy nowych syntezatorów statystycznych (STS). W ramach projektu opracowano nowe systemy STS działające w języku angielskim i tureckim oraz poddano je szeroko zakrojonym testom jakości i zrozumiałości. W przypadku systemu tureckiego zebrano 10 godzin studyjnych nagrań głosowych, zarejestrowanych przez 3 zawodowych spikerów. Dla języka tego utworzono algorytmy generowania wymowy, przetwarzania tekstu i analizy składniowej. Testy wykazały, że jakość i zrozumiałość tureckiego systemu STS jest równie wysoka co jego angielskiego odpowiednika. Zbudowano nowy hybrydowy system statystyczno-korpusowy, który wykorzystuje strukturę morfologiczną języka tureckiego. System ten cechuje się lepszą jakością mowy niż podstawowy system STS, przy minimalnym zwiększeniu wymagań dotyczących pamięci. Dane zebrane z tureckich serwisów informacyjnych i od studentów tureckich uczelni pozwoliły na stworzenie bazy 70 mówców płci męskiej i 70 płci żeńskiej. Ponadto zespół CLSASTS opracował algorytmy adaptacji mówcy oparte na nowej bajesowskiej technice "eigenvoice". Ta ostatnia, w połączeniu z algorytmem "najbliższego sąsiada", pozwoliła na uzyskanie znacznie wyższego podobieństwa mówców. Algorytm "najbliższego sąsiada" sprawdził się równie dobrze co metoda "jednego najbliższego sąsiada". Ponadto nieliniowe metody zmniejszania wymiaru nie skutkowały poprawą wydajności w porównaniu z systemem odniesienia. Biorąc pod uwagę dużą liczbę języków używanych w Europie, projekt CLSASTS powinien mieć ważne implikacje społeczno-ekonomiczne oraz przyczynić się do usprawnienia komunikacji między krajami UE. Wkład projektu w rozwój technik STS zapewni Europie przewagę konkurencyjną w tej dziedzinie, wspierając tworzenie nowych firm i uruchamianie produkcji komercyjnej.

Słowa kluczowe

Adaptacja głosu, komunikacja wielojęzyczna, statystyczny syntezator mowy, translacja mowy, adaptacja mówcy

Znajdź inne artykuły w tej samej dziedzinie zastosowania