European Commission logo
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS
Contenuto archiviato il 2024-05-30

Rapid Cross-Lingual Speaker Adaptation for Statistical Text-to-Speech Systems

Article Category

Article available in the following languages:

Nuovi metodi di adattamento vocale per favorire la comunicazione multilingue in Europa

Con la rapida globalizzazione e la necessità di comunicare in più lingue, l’attenzione si è rivolta allo sviluppo di strumenti e applicazioni di supporto. In questo settore, un’iniziativa dell’UE ha contribuito a progressi che, in definitiva, renderanno più efficace la comunicazione tre le persone.

Economia digitale icon Economia digitale

Il progetto CLSASTS (Rapid cross-lingual speaker adaptation for statistical text-to-speech systems), finanziato dall’UE, si è proposto di perfezionare applicazioni speech-to-speech (discorso-discorso) personalizzate. Più specificamente, ha puntato a estendere la sintesi text-to-speech (testo-parola) attraverso nuovi metodi di sistemi statistici text-to-speech (STS - sistemi testo-parola). Le attività del progetto hanno comportato lo sviluppo di sistemi STS d’avanguardia inglesi e turchi e un’ampia attività di prova su qualità e intelligibilità. In relazione al sistema turco, 3 professionisti in arti vocali hanno fornito 10 ore di registrazioni in studio di parlato. Per la lingua turca, sono stati formulati algoritmi di generazione di pronuncia, di elaborazione di testi e di analisi sintattica. I risultati dei test hanno dimostrato che la qualità e l’intelligibilità del sistema STS turco era pari all’omologo inglese. È stato sviluppato un sistema di sintesi del discorso con selezione ibrida statistica/unitaria, che si avvale dalla struttura morfologica della lingua turca. È emerso che il sistema è di una migliore qualità di eloquio rispetto al sistema STS di riferimento, con un’esigenza minima di aumentare le necessità di memoria. La raccolta di dati turchi da notiziari teletrasmessi e studenti universitari hanno consentito di creare un database di 70 uomini e donne turcofoni. Inoltre, il team CLSASTS ha sviluppato algoritmi di adattamento al parlatore su base eigenvoice e una nuova tecnica baynesiana eigenvoice. Quest’ultima, unita all’approccio del vicino più prossimo, è riuscita a dimostrare una similarità al parlatore notevolmente migliore. L’algoritmo del vicino più prossimo ha funzionato altrettanto del metodo del singolo vicino più prossimo. In aggiunta, i metodi di riduzione di dimensionalità non lineari non hanno potenziato le prestazioni in misura maggiore al sistema di riferimento. Considerato l’ampio numero di lingue parlate in Europa, CLSASTS determinerà rilevanti conseguenze importanti, con comunicazioni migliori tra i paesi dell’UE. Contribuendo ai costanti sforzi di traduzione speech-to-speech, conferirà all’Europa un vantaggio competitivo. Inoltre, la tecnologia conferirà impulso a nuove aziende e/o produzione commerciale.

Parole chiave

Adattamento vocale, comunicazione multilingue, sistema text-to-speech statistico, speech-to-speech, adattamento al parlatore

Scopri altri articoli nello stesso settore di applicazione