Nuovi metodi di adattamento vocale per favorire la comunicazione multilingue in Europa
Il progetto CLSASTS (Rapid cross-lingual speaker adaptation for statistical text-to-speech systems), finanziato dall’UE, si è proposto di perfezionare applicazioni speech-to-speech (discorso-discorso) personalizzate. Più specificamente, ha puntato a estendere la sintesi text-to-speech (testo-parola) attraverso nuovi metodi di sistemi statistici text-to-speech (STS - sistemi testo-parola). Le attività del progetto hanno comportato lo sviluppo di sistemi STS d’avanguardia inglesi e turchi e un’ampia attività di prova su qualità e intelligibilità. In relazione al sistema turco, 3 professionisti in arti vocali hanno fornito 10 ore di registrazioni in studio di parlato. Per la lingua turca, sono stati formulati algoritmi di generazione di pronuncia, di elaborazione di testi e di analisi sintattica. I risultati dei test hanno dimostrato che la qualità e l’intelligibilità del sistema STS turco era pari all’omologo inglese. È stato sviluppato un sistema di sintesi del discorso con selezione ibrida statistica/unitaria, che si avvale dalla struttura morfologica della lingua turca. È emerso che il sistema è di una migliore qualità di eloquio rispetto al sistema STS di riferimento, con un’esigenza minima di aumentare le necessità di memoria. La raccolta di dati turchi da notiziari teletrasmessi e studenti universitari hanno consentito di creare un database di 70 uomini e donne turcofoni. Inoltre, il team CLSASTS ha sviluppato algoritmi di adattamento al parlatore su base eigenvoice e una nuova tecnica baynesiana eigenvoice. Quest’ultima, unita all’approccio del vicino più prossimo, è riuscita a dimostrare una similarità al parlatore notevolmente migliore. L’algoritmo del vicino più prossimo ha funzionato altrettanto del metodo del singolo vicino più prossimo. In aggiunta, i metodi di riduzione di dimensionalità non lineari non hanno potenziato le prestazioni in misura maggiore al sistema di riferimento. Considerato l’ampio numero di lingue parlate in Europa, CLSASTS determinerà rilevanti conseguenze importanti, con comunicazioni migliori tra i paesi dell’UE. Contribuendo ai costanti sforzi di traduzione speech-to-speech, conferirà all’Europa un vantaggio competitivo. Inoltre, la tecnologia conferirà impulso a nuove aziende e/o produzione commerciale.
Parole chiave
Adattamento vocale, comunicazione multilingue, sistema text-to-speech statistico, speech-to-speech, adattamento al parlatore