Accélération des systèmes de reconnaissance des sons
Les malentendants sont fortement désavantagés en terme d'accès aux informations fournies par les technologies vocales. Les mouvements visibles du visage sont un moyen progressif d'élever l'intelligibilité de la parole pour les personnes malentendantes en particulier, mais également pour toute personne confrontée à un environnement bruyant. Ces progrès sont rendus possibles par l'évolution rapide de la technologie vocale multimodale et de la puissance de calcul des ordinateurs. Le prototype Synface, en particulier, est un système constitué d'un mélange de réseaux neuronaux récurrents (RRN, recurrent neural network) et de modèles cachés de Markov (HMM, hidden Markov model). Les RNN fonctionnent en tant qu'estimateurs image par image des probabilités a posteriori en fonction de leur évidence acoustique. Ces probabilités sont ensuite introduites dans des HMM, lesquelles intègrent un modèle d'évolution temporelle. Un système de décodage est finalement utilisé pour extraire la séquence phonétique la plus pertinente pour un segment donné de la parole. Le principal avantage du système de reconnaissance est qu'il peut s'avérer utile dans plusieurs situations exigeant une reconnaissance rapide (logiciel d'apprentissage de la prononciation, par exemple). Le système de reconnaissance est actuellement disponible pour l'anglais, le suédois et le néerlandais.