European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS
Contenu archivé le 2024-05-30

Rapid Cross-Lingual Speaker Adaptation for Statistical Text-to-Speech Systems

Article Category

Article available in the following languages:

Des méthodes d'adaptation vocale innovantes pour faciliter les communications multilingues en Europe

Face à la mondialisation croissante et au besoin de communications en plusieurs langues, des scientifiques ont cherché à développer des outils et des applications adaptées. Une initiative européenne a contribué à faire progresser ce secteur en améliorant l'efficacité des communications.

Économie numérique icon Économie numérique

Le projet CLSASTS (Rapid cross-lingual speaker adaptation for statistical text-to-speech systems), financé par l'UE, a entrepris de perfectionner les applications personnalisées de synthèse vocale. L'objectif était en particulier d'étendre la synthèse vocale à partir d'un texte en y appliquant de nouvelles méthodes. Les activités du projet ont porté sur le développement de systèmes anglais et turcs de haut niveau, et au test avancé de leur qualité et intelligibilité. Pour le système turc, 10 heures d'enregistrement vocal ont été réalisées avec le concours de trois artistes vocaux professionnels. Des algorithmes de prononciation, de traitement de texte et d'analyse syntaxique ont été créés pour le turc. Les tests ont montré que la qualité et l'intelligibilité du système turc étaient équivalentes à celles du système anglais. L'équipe a mis au point un système inédit de synthèse vocale mixte combinant la méthode statistique et la sélection d'unités, qui utilise la structure morphologique de la langue turque. Elle a constaté que ce système avait une meilleure qualité vocale que le système de synthèse de base à partir de texte, avec une augmentation minime des besoins en mémoire. La collecte de données en langue turque provenant d'émissions d'information et produites par des étudiants a permis de créer une base de données regroupant les enregistrements de 140 turcophones hommes et femmes, à parts égales. En outre, l'équipe du projet CLSASTS a travaillé à la mise au point d'algorithmes d'adaptation au locuteur basée sur les voix propres, et d'une nouvelle technique bayésienne de voix propres. Cette dernière, combinée à une méthode de voisin le plus proche, a permis d'obtenir une similitude bien supérieure avec les locuteurs. L'algorithme de voisin le plus proche a donné des résultats équivalents à la méthode de voisin unique le plus proche. En outre, les méthodes non linéaires de réduction de la dimensionnalité n'ont pas donné de meilleurs résultats que le système de base. Compte tenu du nombre important de langues parlées en Europe, le projet CLSASTS aura d'importantes implications socio-économiques en améliorant notamment la communication entre les pays. Le projet contribuera aux efforts permanents visant à améliorer la traduction par synthèse vocale, et apportera un avantage concurrentiel à l'Europe. Parallèlement, la technique favorisera la création d'entreprise et la production commerciale.

Mots‑clés

Adaptation vocale, communication multilingue, synthèse vocale statistique à partir d'un texte, synthèse vocale à partir d'une voix, adaptation du locuteur

Découvrir d’autres articles du même domaine d’application