Forschungs- & Entwicklungsinformationsdienst der Gemeinschaft - CORDIS

Neuartige Stimmenanpassungsmethoden für eine leichtere mehrsprachige Kommunikation in Europa

Mit dem raschen Fortschreiten der Globalisierung und der Notwendigkeit von Kommunikation in verschiedenen Sprachen wurde die Aufmerksamkeit auf die Entwicklung von unterstützenden Tools und Anwendungen gelenkt. Eine EU-Initiative trug zu Fortschritten in diesem Bereich bei, die den Menschen letztlich helfen werden, effektiver zu kommunizieren.
Neuartige Stimmenanpassungsmethoden für eine leichtere mehrsprachige Kommunikation in Europa
Das EU-finanzierte Projekt CLSASTS (Rapid cross-lingual speaker adaptation for statistical text-to-speech systems) setzte sich das Ziel, personalisierte Rede-zu-Rede-Anwendungen zu verfeinern. Genauer gesagt wollte man die Text-zu-Sprache-Synthese mit neuen Methoden für statistische Text-zu-Rede (STS)-Systeme erweitern.

Die Projektarbeit umfasste die Entwicklung von modernsten STS-Systemen für Englisch und Türkisch und deren umfangreichen Qualitäts- und Verständlichkeitstests. Für das türkische System wurden 10 Stunden Sprachstudioaufnahmen von 3 professionellen Sprechern gesammelt. Außerdem wurden für die türkische Sprache Algorithmen für Aussprache-Generierung, Textverarbeitung und syntaktische Analyse erstellt. Die Testergebnisse zeigten, dass Qualität und Verständlichkeit des türkischen STS-Systems dem des englischen Äquivalents gleich kamen.

Ein neuartiges hybrides statistisches/einheitenbasiertes Sprachsynthesesystem entwickelt, das den Vorteil der morphologischen Struktur der türkischen Sprache erfolgt. Dieses System wies eine bessere Sprachqualität als das Basis-STS-System auf und muss nur minimal hinsichtlich der Speicheranforderungen optimiert werden.

Das Sammeln von türkischen Daten aus Nachrichtensendungen und von Studenten ermöglichte die Erstellung einer Datenbank von 70 männlichen und 70 weiblichen türkischen Sprechern. Darüber hinaus entwickelt das Team von CLSASTS eigenstimmbasierte Sprecheranpassungsalgorithmen und eine neuartige Bayesian-Eigenstimm-Technik. In Kombination mit einem Nächster-Nachbar-Ansatz zeigte die letztere Technik wesentlich bessere Sprecherähnlichkeit bei hohen Stimmen. Der Nächster-Nachbar-Algorithmus hatte eine ebenso gute Leistung wie die Einzel-Nächster-Nachbar-Methode. Darüber hinaus konnten nicht-lineare Dimensionsverringrungsverfahren die Leistung gegenüber dem Basis-System nicht verbessern.

Angesichts der großen Zahl der in Europa gesprochenen Sprachen wird CLSASTS wichtige sozioökonomische Auswirkungen durch eine verbesserte Kommunikation zwischen den EU-Ländern haben. Indem es zu den anhaltenden Bemühungen um Rede-zu-Rede-Übersetzungen beiträgt, wird es Europa einen Wettbewerbsvorteil verschaffen. Darüber hinaus wird die Technologie neue Unternehmen und/oder kommerzielle Produktion anspornen.

Verwandte Informationen

Fachgebiete

Scientific Research

Schlüsselwörter

Stimmenadaption, mehrsprachige Kommunikation, statistisches Text-Rede-System, Rede-zu-Rede, Sprecheranpassung
Folgen Sie uns auf: RSS Facebook Twitter YouTube Verwaltet vom Amt für Veröffentlichungen der EU Nach oben