El aprendizaje en entornos dinámicos
El principal objetivo de «Plural reinforcement learning» (PLURELEARN) era desarrollar algoritmos y elaborar un marco teórico-práctico basado en las sinergias entre gran cantidad de planteamientos y modelos de aprendizaje. Para alcanzar su propósito el equipo se fijó tres metas: desarrollar un método de enseñanza que conjugase la docencia con el aprendizaje por ensayo y error; diseñar una metodología de descubrimiento de estructuras que se prestase al razonamiento sobre la incertidumbre en procesos Markov de elevadas dimensiones; y desarrollar sistemas de selección de algoritmos y mini estrategias. El equipo avanzó en pos de estos objetivos. Las investigaciones relativas al primero de ellos dieron lugar a artículos sobre la utilización de tutorías o asesoramiento por expertos en los modelos de aprendizaje por refuerzo. El trabajo del consorcio ilustró nuevos algoritmos para el problema del aprendizaje a partir de múltiples fuentes, así como su funcionamiento en aplicaciones a mediana escala. El problema del descubrimiento de estructuras, del que se ocupaba el segundo objetivo, resultó ser ciertamente complejo. Tras desarrollar los aspectos teóricos y prácticos de la selección de modelos y el descubrimiento de estructuras y constatar la dificultad que entraña la detección de estructuras dinámicas, el equipo diseñó dos métodos de mitigación de riesgos. El primero se basa en gradientes de políticas y va dirigido a problemas para los que existe un simulador. El segundo, por su parte, se asienta sobre un sólido sistema de optimización enfocado hacia un par de incertidumbres entre estados. En cuanto al tercer objetivo, los investigadores confeccionaron dos estrategias orientadas a la optimización del rendimiento; una para modificar opciones y generar otras nuevas y mejoradas, y otra para utilizar opciones «generadas aleatoriamente» a fin de agilizar los procesos de planificación y aprendizaje. El equipo logró desarrollar un nuevo marco de planificación y aprendizaje adaptado a entornos variables y basados en datos. La investigación podría sentar las bases para futuras acciones de optimización a gran escala de sistemas dinámicos, lo que a su vez permitiría resolver problemas a mayor escala.