Acelerar los sistemas de reconocimiento de sonidos
Las personas con alguna discapacidad auditiva están en desventaja en lo que se refiere al acceso a la información tecnológica hablada. Los movimientos visibles del rostro constituyen un modo continuo de destacar la inteligibilidad del habla para las personas con alguna discapacidad auditiva en concreto, y para todos en general, respecto al ruido. Esos avances son posibles gracias a la rápida evolución de la tecnología del habla multimodal y el poder de procesamiento por ordenador. El prototipo Synface en particular es un sistema compuesto por un híbrido de redes neurales recurrentes (RNN) y modelos ocultos de Markov (HMM). Las RNN actúan como estimadores de probabilidad posterior de cada sonido vocal fotograma a fotograma, debido a su testimonio acústico. Esas probabilidades se introducen después en HMM que contienen un modelo de evolución temporal. Posteriormente se usa un decodificador para que obtener la mejor secuencia fonética para determinado segmento vocal. La principal ventaja del reconocedor es que puede servir en distintas situaciones en las que hace falta un reconocimiento rápido, como en el software de clases de pronunciación. El reconocedor ya está disponible en versiones para inglés, sueco y flamenco.