Die Beschleunigung von Tonerkennungssystemen
Wenn es um den Zugriff auf gesprochene technologische Informationen geht, wird die hörgeschädigte Bevölkerung enorm benachteiligt. Sichtbare Gesichtsbewegungen sind ein progressives Mittel zur Steigerung der Sprachverständlichkeit besonders für hörgeschädigte Personen und für alle hinsichtlich Lärm. Solche Entwicklungen werden über die schnelle Evolution der multimodalen Sprachtechnologie und die PC-Verarbeitungsleistung ermöglicht. Insbesondere der Synface-Prototyp ist ein System, das aus einer Mischung rekurrenter neuronaler Netzwerke (RNN) und Hidden-Markov-Modelle (HMM) besteht. Die RNNs fungieren anhand der akustischen Hinweise als Bild-für-Bild-Schätzer für die spätere Wahrscheinlichkeit jedes Sprachklangs. Anschließend fließen diese Wahrscheinlichkeiten in HMMs ein, die ein Modell des zeitlichen Verlaufs beinhalten. Ein Decoder extrahiert die beste phonetische Sequenz für ein jeweiliges Sprachsegment. Der Hauptvorteil des Erkennungsprogramms liegt darin, dass dieses in unterschiedlichen Situationen nützlich sein kann, die eine rasche Erkennung erforderlich machen, wie beispielsweise bei einer Schulungssoftware zur Aussprache. Das Erkennungsprogramm ist derzeit in einer englischen, schwedischen und flämischen Version verfügbar.