Skip to main content
European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS

Data-Efficient Scalable Reinforcement Learning for Practical Robotic Environments

Article Category

Article available in the following languages:

Diseño de algoritmos para obtener datos más complejos

Las personas que investigan el aprendizaje automático a menudo tienen que salvar el paso de la simulación a la realidad, es decir, conseguir que los logros de los algoritmos obtenidos en las simulaciones por ordenador se puedan reproducir en pruebas funcionales. Para conseguirlo, DESIRE ha generado un algoritmo de toma de decisiones sólido y basado en datos.

Economía digital icon Economía digital

Los avances en el campo de la informática, como el juego AlphaGo, utilizan y generan grandes cantidades de datos. Para procesar este volumen de datos, los investigadores dependen de los algoritmos de aprendizaje automático (AA) desarrollados mediante técnicas como el aprendizaje por refuerzo (AR), además de los grandes avances en inteligencia artificial (IA). Sin embargo, aunque puede que estos algoritmos sean eficaces en una simulación, con frecuencia resultan decepcionantes en el mundo real. Estos fallos de funcionamiento son relevantes en ámbitos de alto riesgo como la robótica, donde, por razones prácticas y económicas, solo es posible llevar a cabo un número limitado de ensayos. El proyecto DESIRE, financiado con fondos europeos, se propuso mejorar la solidez de los algoritmos de optimización, aprendizaje y control que subyacían a muchas innovaciones que luchan por lograr un control autónomo.

Kernel-DRO

Uno de los problemas claves al pasar de la simulación a la realidad es un fenómeno de AA llamado «desplazamiento de la distribución». Dicho de manera sencilla, esto sucede cuando aparece una discrepancia entre la distribución de los datos de los conjuntos de datos usados para el entrenamiento y los usados en pruebas en el mundo real. «Normalmente, esto sucede porque los conjuntos de datos de prueba representan las condiciones reales de forma demasiado simple», comenta Jia-Jie Zhu, beneficiario de la beca de investigación que contó con el apoyo del programa Acciones Marie Skłodowska-Curie. «El desplazamiento de la distribución ha sido uno de los principales problemas de los algoritmos de aprendizaje y control, y un escollo que nos impide avanzar», añade Zhu, del Instituto Max Planck para Sistemas Inteligentes (anfitrión del proyecto). El proyecto DESIRE recurrió a los denominados métodos de aprendizaje basado en kernel para reducir esta desviación de la distribución. Se trata de cálculos que aumentan la fiabilidad de los algoritmos gracias al reconocimiento de patrones en los datos, la identificación y posterior organización de relaciones de los datos conforme a funciones predeterminadas, como correlaciones o clasificaciones. Esto permitió a DESIRE crear un algoritmo que emplease Kernel-DRO, o la optimización robusta de distribuciones de kernel, en la que se determinaban de forma robusta las decisiones, como los comandos de control para robots.

Una aplicabilidad amplia

Aunque el trabajo de DESIRE es teórico, tiene diferentes implicaciones prácticas, además de contribuir a la literatura sobre optimización matemática y las teorías de control y AA. Sin duda, uno de los puntos fuertes de la solución Kernel-DRO del equipo es precisamente esta amplia aplicabilidad. «Muchas de las tareas de aprendizaje actuales experimentan ambigüedad en la distribución de los datos. Creemos que los profesionales de la industria y los empresarios que quieran mejorar la solidez de su aprendizaje automático pueden aplicar nuestro algoritmo con facilidad», explica Zhu. A fin de profundizar en el trabajo, ahora Zhu tiene por objeto crear algoritmos de aprendizaje a mayor escala que puedan utilizar entradas de datos más aleatorias y que sean adecuados para aplicaciones industriales. Por ejemplo, se aplica el principio de solidez de los datos a un control predictivo basado en modelos, un método de control altamente eficaz para aplicaciones de seguridad crítica, como el control de vuelo, el control de procesos químicos y la robótica.

Palabras clave

DESIRE, aprendizaje automático, inteligencia artificial, robots, cálculos, distribución de los datos, algoritmo, autónomo, aprendizaje por refuerzo, kernel, simulaciones

Descubra otros artículos del mismo campo de aplicación