Contenido archivado el 2024-05-27

Synthesised talking face derived from speech for hearing disabled users of voice channels

Acelerar los sistemas de reconocimiento de sonidos

Se ha fabricado un sistema de reconocimiento de fonemas de alto nivel con un retraso mínimo para el prototipo Synface. Se trata de una tecnología plurilingüe para un rostro sintético generado por el habla que proporciona información visual importante a los usuarios del teléfono u otros canales de voz con alguna discapacidad auditiva.

Economía digital

Las personas con alguna discapacidad auditiva están en desventaja en lo que se refiere al acceso a la información tecnológica hablada. Los movimientos visibles del rostro constituyen un modo continuo de destacar la inteligibilidad del habla para las personas con alguna discapacidad auditiva en concreto, y para todos en general, respecto al ruido. Esos avances son posibles gracias a la rápida evolución de la tecnología del habla multimodal y el poder de procesamiento por ordenador. El prototipo Synface en particular es un sistema compuesto por un híbrido de redes neurales recurrentes (RNN) y modelos ocultos de Markov (HMM). Las RNN actúan como estimadores de probabilidad posterior de cada sonido vocal fotograma a fotograma, debido a su testimonio acústico. Esas probabilidades se introducen después en HMM que contienen un modelo de evolución temporal. Posteriormente se usa un decodificador para que obtener la mejor secuencia fonética para determinado segmento vocal. La principal ventaja del reconocedor es que puede servir en distintas situaciones en las que hace falta un reconocimiento rápido, como en el software de clases de pronunciación. El reconocedor ya está disponible en versiones para inglés, sueco y flamenco.

Información del proyecto

SYNFACE

Identificador del acuerdo de subvención: IST-2001-33327