Skip to main content
European Commission logo print header

Audio-VIsual Speech Processing for Interaction in Realistic Environments

Article Category

Article available in the following languages:

Nuevas formas de mejorar el reconocimiento del habla

Para que los ordenadores sean capaces de leer los labios al igual que los humanos, es necesario dar con técnicas eficaces de reconocimiento del habla con eficacia que no impliquen equipos de coste excesivo. A esta labor se dedica un equipo de investigadores europeos que trabaja en la mejora de sistemas de reconocimiento del habla para que distingan entre varios hablantes en condiciones reales.

Tecnologías industriales icon Tecnologías industriales

La investigación en torno al reconocimiento del habla por medios audiovisuales se ha dedicado hasta ahora a extraer información visual de boca del orador para ayudar a los ordenadores a comprender un discurso fluido. No obstante, la mayor parte de la labor realizada al respecto se ha ceñido a situaciones ideales en las que los datos visuales poseen una calidad elevada, esto es, cámaras caras que obtienen imágenes en alta resolución de una única persona que no se mueve con libertad y que mantiene la posición de la cabeza estable con relación al sistema de grabación en condiciones de iluminación por lo general idóneas.En este contexto, el proyecto «Audio-visual speech processing for interaction in realistic environments» (AVISPIRE) se propuso utilizar sistemas audiovisuales de bajo coste en entornos más realistas. Sus colaboradores partieron de una situación con un único orador y datos de alta calidad para adentrarse en el reconocimiento de voz de varios hablantes en condiciones de iluminación distintas. Además investigaron el rendimiento de dispositivos de detección nuevos capaces de obtener los datos del habla necesarios.Sus primeros pasos se dedicaron a desarrollar los componentes básicos de un sistema de reconocimiento audiovisual del habla. Incluyeron el algoritmo de Adaboost, destinado a detectar la cara del orador, y un extractor normalizado con el que aislar la región de interés (la boca) en un subsistema de interfaz de usuario basado en imágenes. Un modelo de Markov de múltiples secuencias sirvió para unir datos de sonido e imagen.Tanto la interfaz del usuario como el sistema de unión audiovisual se ampliaron para dotarlos de compatibilidad con el sensor Microsoft Kinect. Este dispositivo barato proporciona información sobre el movimiento del orador y mejora la estabilidad de los movimientos de la cabeza. Su trabajo se dedicó entonces a obtener datos para crear un corpus audiovisual dotado de información sobre movimientos y bilingüe con registros en inglés y griego.Por último, los socios del proyecto estudiaron formas de aprovechar capacidades de reconocimiento de patrones humanos para mejorar la solidez del sistema de reconocimiento audiovisual del habla. El conocimiento sobre la cantidad de oradores y su ubicación contribuiría a mejorar considerablemente los resultados al permitir enfocar el contorno de la boca de los asistentes.La interacción entre humanos y ordenadores basada en el reconocimiento del habla posee cada vez más aplicaciones, pero aún tiene por delante un largo camino por recorrer. La posibilidad de entender a más de un orador en condiciones similares a las reales proporcionada por AVISPIRE supone una importante aportación a los esfuerzos en este sentido.

Descubra otros artículos del mismo campo de aplicación