European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS

A Model for Predicting Perceived Quality of Audio-visual Speech based on Automatic Assessment of Intermodal Asynchrony

Article Category

Article available in the following languages:

Técnica para evaluar la calidad audiovisual del habla

Cuando el sonido de un vídeo se reproduce antes que la imagen, se genera una situación incómoda para el usuario. Una nueva investigación dedicada a medir con eficacia señales audiovisuales asíncronas podría aportar una solución.

Tecnologías industriales icon Tecnologías industriales

La comunicación audiovisual de alta tecnología es una forma de intercambio cada vez más popular que adopta formas como las teleconferencias por satélite o las videollamadas a través del móvil. En principio podría parecer un asunto menor, pero la sincronización de la imagen y el sonido resulta complicada a la vez que fundamental para el buen funcionamiento de aplicaciones complejas como estas. Si los usuarios perciben una desincronización, pueden pasarse a otros medios para continuar su charla. El proyecto financiado con fondos europeos PERCQUALAVS se propuso medir la sincronía entre elementos ópticos y acústicos de este tipo de tecnologías. Así, creó un modelo para predecir la calidad percibida del habla audiovisual a través de ámbitos de estudio como la visión artificial, la ciencia cognitiva, el aprendizaje automático y el procesamiento del habla. Su labor se dividió en cuatro fases. La primera se dedicó a extraer características audiovisuales fundamentales a partir de una señal de entrada con el fin de aplicar un proceso automático de detección de la desincronización. En la segunda se recopilaron datos de repuestas perceptuales subjetivas mediante varios experimentos de la percepción. La tercera fase se dedicó al análisis de las respuestas perceptuales recabadas y la cuarta incluyó un componente de aprendizaje automático capaz de predecir la percepción humana de información asíncrona. El equipo al cargo del proyecto desarrolló extractores de características basados en visión artificial capaces de registrar el movimiento de los labios en tiempo real y extraer datos útiles y creó paquetes de herramientas aplicadas al procesamiento del habla para contribuir al análisis de los datos. Otro logro importante del proyecto fue el desarrollo de un programa informático con el que procesar las características extraídas para así medir la sincronía y representar los resultados. Con este método es posible establecer comparaciones entre las respuestas perceptuales de los usuarios y los resultados generados automáticamente. Cabe añadir que los resultados del proyecto no se difundieron de modo adecuado a causa de varios obstáculos técnicos y temporales, pero sí han servido como punto de partida para otras investigaciones sobre el mismo tema. Todo ello ha supuesto un progreso en la evaluación y la mejora de la tecnología audiovisual, un campo en rápido crecimiento en todo el mundo.

Palabras clave

Audiovisual, calidad del habla, asíncrono, comunicación, aprendizaje automático, percepción humana, información asíncrona

Descubra otros artículos del mismo campo de aplicación