European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS
Contenido archivado el 2024-05-30

Rapid Cross-Lingual Speaker Adaptation for Statistical Text-to-Speech Systems

Article Category

Article available in the following languages:

Nuevos métodos de adaptación de la voz para facilitar la comunicación plurilingüe en Europa

A raíz de la veloz globalización y de la necesidad de comunicarnos en múltiples idiomas, el desarrollo de herramientas y aplicaciones de apoyo recibe recibe ahora una gran atención. La Unión Europea financió una iniciativa que impulsó avances en este ámbito que ayudarán, a la larga, a que la comunicación entre las personas sea más eficaz.

Economía digital icon Economía digital

CLSASTS (Rapid cross-lingual speaker adaptation for statistical text-to-speech systems) se propuso perfeccionar las aplicaciones personalizadas de conversión de voz a voz. Concretamente, pretendía ampliar la síntesis de texto a voz mediante nuevos métodos que habilitasen sistemas de conversión estadística de texto a voz (STS). Se trabajó en el desarrollo de sistemas punteros de STS en inglés y turco y también en la realización de extensas pruebas de calidad e inteligibilidad. En cuanto al sistema turco, se reunieron diez horas de grabaciones de voz en estudio a cargo de tres locutores profesionales. Se crearon algoritmos de análisis sintáctico, tratamiento de texto y generación de pronunciación en lengua turca. Los resultados de las pruebas demostraron que la calidad e inteligibilidad del sistema de STS turco eran parejas a las del sistema en lengua inglesa. Se desarrolló un novedoso sistema de síntesis híbrido de voz (estadística y por selección de unidades) que aprovecha la estructura morfológica del turco. Se observó que este sistema ofrecía una mayor calidad de habla frente al sistema STS de referencia, sin apenas tener que ampliar para ello los requisitos de memoria. Para el turco se recogieron datos a partir de noticias y estudiantes de universidad, lo cual permitió crear una base de datos fundamentada en setenta hombres y setenta mujeres turcohablantes. Además, el equipo CLSASTS desarrolló algoritmos de adaptación del hablante basados en eigenvoice y una técnica eigenvoice neobayesiana. Esta última, combinada con el enfoque de buscar similitudes vecinas, ha demostrado una similitud con un hablante notablemente mayor. El algoritmo de búsqueda de similitudes vecinas rindió igual de bien que el método de búsqueda de similitudes vecinas únicas. Además, los métodos no lineales de reducción de la dimensionalidad no mejoraron el rendimiento con respecto al sistema de referencia. El elevado multilingüismo en Europa hará que los resultados de CLSASTS tengan una gran implicación socioeconómica y permitirá mejorar la comunicación entre los países de la UE. Las contribuciones del proyecto a los continuos esfuerzos de traducción de voz a voz aportará una ventaja competitiva a Europa. La tecnología servirá de acicate para la creación de nuevas empresas y/o la producción comercial.

Palabras clave

Adaptación de la voz, comunicación plurilingüe, conversión estadística de texto a voz, conversión de voz a voz, adaptación del hablante

Descubra otros artículos del mismo campo de aplicación