Inhalt archiviert am 2024-05-27

Synthesised talking face derived from speech for hearing disabled users of voice channels

Die Beschleunigung von Tonerkennungssystemen

Für den Synface-Prototyp wurde ein hochmodernes System zur Phonemerkennung mit minimaler Verzögerung entwickelt. Dabei handelt es sich um eine Mehrsprachentechnologie für ein sprachabgeleitetes synthetisches Gesicht, das wichtige visuelle Sprachinformationen für hörgeschädigte Nutzer von Telefon und anderen Sprachkanälen zur Verfügung stellt.

Digitale Wirtschaft

Wenn es um den Zugriff auf gesprochene technologische Informationen geht, wird die hörgeschädigte Bevölkerung enorm benachteiligt. Sichtbare Gesichtsbewegungen sind ein progressives Mittel zur Steigerung der Sprachverständlichkeit besonders für hörgeschädigte Personen und für alle hinsichtlich Lärm. Solche Entwicklungen werden über die schnelle Evolution der multimodalen Sprachtechnologie und die PC-Verarbeitungsleistung ermöglicht. Insbesondere der Synface-Prototyp ist ein System, das aus einer Mischung rekurrenter neuronaler Netzwerke (RNN) und Hidden-Markov-Modelle (HMM) besteht. Die RNNs fungieren anhand der akustischen Hinweise als Bild-für-Bild-Schätzer für die spätere Wahrscheinlichkeit jedes Sprachklangs. Anschließend fließen diese Wahrscheinlichkeiten in HMMs ein, die ein Modell des zeitlichen Verlaufs beinhalten. Ein Decoder extrahiert die beste phonetische Sequenz für ein jeweiliges Sprachsegment. Der Hauptvorteil des Erkennungsprogramms liegt darin, dass dieses in unterschiedlichen Situationen nützlich sein kann, die eine rasche Erkennung erforderlich machen, wie beispielsweise bei einer Schulungssoftware zur Aussprache. Das Erkennungsprogramm ist derzeit in einer englischen, schwedischen und flämischen Version verfügbar.

Projektinformationen

SYNFACE

ID Finanzhilfevereinbarung: IST-2001-33327