Skip to main content
Ir a la página de inicio de la Comisión Europea (se abrirá en una nueva ventana)
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS
Contenido archivado el 2024-06-18
Plural Reinforcement Learning

Article Category

Article available in the following languages:

El aprendizaje en entornos dinámicos

En el marco de un proyecto financiado por la Unión Europea se desarrolló un nuevo paradigma de aprendizaje adaptado a entornos dinámicos y a gran escala asociados a elementos de incertidumbre.

El principal objetivo de «Plural reinforcement learning» (PLURELEARN) era desarrollar algoritmos y elaborar un marco teórico-práctico basado en las sinergias entre gran cantidad de planteamientos y modelos de aprendizaje. Para alcanzar su propósito el equipo se fijó tres metas: desarrollar un método de enseñanza que conjugase la docencia con el aprendizaje por ensayo y error; diseñar una metodología de descubrimiento de estructuras que se prestase al razonamiento sobre la incertidumbre en procesos Markov de elevadas dimensiones; y desarrollar sistemas de selección de algoritmos y mini estrategias. El equipo avanzó en pos de estos objetivos. Las investigaciones relativas al primero de ellos dieron lugar a artículos sobre la utilización de tutorías o asesoramiento por expertos en los modelos de aprendizaje por refuerzo. El trabajo del consorcio ilustró nuevos algoritmos para el problema del aprendizaje a partir de múltiples fuentes, así como su funcionamiento en aplicaciones a mediana escala. El problema del descubrimiento de estructuras, del que se ocupaba el segundo objetivo, resultó ser ciertamente complejo. Tras desarrollar los aspectos teóricos y prácticos de la selección de modelos y el descubrimiento de estructuras y constatar la dificultad que entraña la detección de estructuras dinámicas, el equipo diseñó dos métodos de mitigación de riesgos. El primero se basa en gradientes de políticas y va dirigido a problemas para los que existe un simulador. El segundo, por su parte, se asienta sobre un sólido sistema de optimización enfocado hacia un par de incertidumbres entre estados. En cuanto al tercer objetivo, los investigadores confeccionaron dos estrategias orientadas a la optimización del rendimiento; una para modificar opciones y generar otras nuevas y mejoradas, y otra para utilizar opciones «generadas aleatoriamente» a fin de agilizar los procesos de planificación y aprendizaje. El equipo logró desarrollar un nuevo marco de planificación y aprendizaje adaptado a entornos variables y basados en datos. La investigación podría sentar las bases para futuras acciones de optimización a gran escala de sistemas dinámicos, lo que a su vez permitiría resolver problemas a mayor escala.

Descubra otros artículos del mismo campo de aplicación

Mi folleto 0 0