Skip to main content
European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS

Neural Video Processing and Streaming for Real-time Traffic Monitoring

Article Category

Article available in the following languages:

Vigilancia del tráfico en tiempo real mediante vídeo de calidad gracias a la inteligencia artificial

El proyecto VISIONS acerca las ciudades inteligentes con un sistema de control del tráfico en tiempo real basado en el procesamiento y la transmisión de vídeo de alta calidad mediante inteligencia artificial.

Transporte y movilidad icon Transporte y movilidad

El crecimiento de la población urbana, unido al aumento de la propiedad de vehículos, ha impulsado el desarrollo y la instalación de sistemas de vigilancia del tráfico para contrarrestar la congestión y garantizar la seguridad vial. Aunque las carreteras están cada vez más cubiertas por las cámaras, actualmente el ancho de banda de la mayoría de las redes de comunicaciones del mundo es demasiado limitado para transmitir vídeo de vigilancia del tráfico de alta calidad, y una calidad inferior compromete la toma de decisiones de los operadores de tráfico. El equipo del proyecto VISIONS, financiado por las acciones Marie Skłodowska-Curie (MSCA), ha aplicado métodos de aprendizaje automático al procesamiento y la transmisión de vídeo, para ofrecer una supervisión de calidad del tráfico por vídeo en tiempo real. En el futuro, el algoritmo de VISIONS estará disponible como paquete de «software», que podrá descargarse en cámaras operativas o integrarse en cámaras nuevas, contribuyendo así a apoyar la ambición de la Unión Europea de reducir a cero las muertes en carretera para 2050.

Optimización integral del vídeo

Para maximizar el ancho de banda de red disponible para el sistema de vigilancia del tráfico, el equipo del proyecto VISIONS exploró el aprendizaje automático tanto para el procesamiento como la transmisión de vídeo. Para procesar el vídeo, las cámaras lo cargan con una resolución inferior, que el algoritmo VISIONS mejora reconstruyéndolo mediante técnicas como la superresolución. En cuanto la transmisión de vídeo, VISIONS utiliza el aprendizaje de refuerzo profundo para ajustar la tasa de bits de vídeo en tiempo real, lo cual permite al sistema adaptarse a dinámicas inesperadas de la red (como las demandas en competencia de otros servicios) y mejorar la experiencia de los usuarios. «Dada la limitada capacidad de cálculo y consumo energético de las cámaras de vigilancia del tráfico, nuestro modelo de red neuronal puede funcionar con fiabilidad en cámaras con recursos informáticos limitados», señala Xu Zhang, beneficiario de una beca de investigación de las MSCA. En el futuro, para garantizar que los usuarios obtengan una visualización de la mayor calidad posible, maximizando al mismo tiempo el ancho de banda, el sistema calculará una especie de compensación, como explica Zhang: «Si las instalaciones del usuario final son potentes, VISIONS transmitirá vídeos de baja resolución en la red, reconstruyendo el vídeo para aumentar su calidad en el lado del cliente, con lo que utilizará menos ancho de banda de red. Si las instalaciones del usuario final disponen de menos recursos informáticos, hay que transmitir vídeos de mayor resolución, lo que consume un ancho de banda mucho mayor».

Pruebas simultáneas de algoritmos

El sistema se desarrolló utilizando la interfaz de programación de aplicaciones Python de TensorFlow. Asimismo, se ha desarrollado un entorno de simulación basado en el proceso de ingesta de vídeo de servicios de transmisión de vídeo con tráfico real. El equipo entrenó simultáneamente varios modelos, cada uno de ellos basado en distintos datos de red y vídeo procedentes de conjuntos de datos públicos, lo cual hizo que el sistema fuera más robusto en general. Entre ellos: datos de carga de banda ancha de la Comisión Federal de Comunicaciones, datos de ancho de banda inalámbrica 4G recogidos en dispositivos móviles en Gante y los registros de ancho de banda HSDPA 3G de escenarios de transmisión HTTP móvil. Para evaluar el rendimiento, el algoritmo VISIONS se comparó con otros métodos de vanguardia, en términos de consumo de ancho de banda y fluidez del vídeo, junto con la pérdida de fotogramas y la congelación de la imagen, entre otros criterios. «Nuestro algoritmo puede reducir los fotogramas perdidos y la congelación de la imagen en un 24 % y un 15,5 %, respectivamente, sin necesidad de más ancho de banda», afirma Zhang.

Importancia para otros sistemas multimedia

VISIONS se centró en la transmisión de vídeo a los centros de control, ayudando a los operadores a observar a distancia el flujo de tráfico para identificar y responder rápidamente a problemas como emergencias o atascos. «En el futuro, estudiaremos la transmisión de vídeos de tráfico a sistemas de inteligencia artificial para que los analicen y señalen problemas. Mientras tanto, nuestros resultados podrían beneficiar a otros sistemas basados en aplicaciones multimedia, como las aplicaciones de realidad virtual, la educación a distancia y la atención sanitaria», concluye Zhang.

Palabras clave

VISIONS, vídeo, tasa de bits, inteligencia artificial, aprendizaje automático, tráfico, carretera, vigilancia, transmisión de vídeo, ancho de banda

Descubra otros artículos del mismo campo de aplicación