CORDIS - Forschungsergebnisse der EU
CORDIS
Inhalt archiviert am 2024-05-30

Rapid Cross-Lingual Speaker Adaptation for Statistical Text-to-Speech Systems

Article Category

Article available in the following languages:

Neuartige Stimmenanpassungsmethoden für eine leichtere mehrsprachige Kommunikation in Europa

Mit dem raschen Fortschreiten der Globalisierung und der Notwendigkeit von Kommunikation in verschiedenen Sprachen wurde die Aufmerksamkeit auf die Entwicklung von unterstützenden Tools und Anwendungen gelenkt. Eine EU-Initiative trug zu Fortschritten in diesem Bereich bei, die den Menschen letztlich helfen werden, effektiver zu kommunizieren.

Digitale Wirtschaft icon Digitale Wirtschaft

Das EU-finanzierte Projekt CLSASTS (Rapid cross-lingual speaker adaptation for statistical text-to-speech systems) setzte sich das Ziel, personalisierte Rede-zu-Rede-Anwendungen zu verfeinern. Genauer gesagt wollte man die Text-zu-Sprache-Synthese mit neuen Methoden für statistische Text-zu-Rede (STS)-Systeme erweitern. Die Projektarbeit umfasste die Entwicklung von modernsten STS-Systemen für Englisch und Türkisch und deren umfangreichen Qualitäts- und Verständlichkeitstests. Für das türkische System wurden 10 Stunden Sprachstudioaufnahmen von 3 professionellen Sprechern gesammelt. Außerdem wurden für die türkische Sprache Algorithmen für Aussprache-Generierung, Textverarbeitung und syntaktische Analyse erstellt. Die Testergebnisse zeigten, dass Qualität und Verständlichkeit des türkischen STS-Systems dem des englischen Äquivalents gleich kamen. Ein neuartiges hybrides statistisches/einheitenbasiertes Sprachsynthesesystem entwickelt, das den Vorteil der morphologischen Struktur der türkischen Sprache erfolgt. Dieses System wies eine bessere Sprachqualität als das Basis-STS-System auf und muss nur minimal hinsichtlich der Speicheranforderungen optimiert werden. Das Sammeln von türkischen Daten aus Nachrichtensendungen und von Studenten ermöglichte die Erstellung einer Datenbank von 70 männlichen und 70 weiblichen türkischen Sprechern. Darüber hinaus entwickelt das Team von CLSASTS eigenstimmbasierte Sprecheranpassungsalgorithmen und eine neuartige Bayesian-Eigenstimm-Technik. In Kombination mit einem Nächster-Nachbar-Ansatz zeigte die letztere Technik wesentlich bessere Sprecherähnlichkeit bei hohen Stimmen. Der Nächster-Nachbar-Algorithmus hatte eine ebenso gute Leistung wie die Einzel-Nächster-Nachbar-Methode. Darüber hinaus konnten nicht-lineare Dimensionsverringrungsverfahren die Leistung gegenüber dem Basis-System nicht verbessern. Angesichts der großen Zahl der in Europa gesprochenen Sprachen wird CLSASTS wichtige sozioökonomische Auswirkungen durch eine verbesserte Kommunikation zwischen den EU-Ländern haben. Indem es zu den anhaltenden Bemühungen um Rede-zu-Rede-Übersetzungen beiträgt, wird es Europa einen Wettbewerbsvorteil verschaffen. Darüber hinaus wird die Technologie neue Unternehmen und/oder kommerzielle Produktion anspornen.

Schlüsselbegriffe

Stimmenadaption, mehrsprachige Kommunikation, statistisches Text-Rede-System, Rede-zu-Rede, Sprecheranpassung

Entdecken Sie Artikel in demselben Anwendungsbereich