El aprendizaje en entornos dinámicos

En el marco de un proyecto financiado por la Unión Europea se desarrolló un nuevo paradigma de aprendizaje adaptado a entornos dinámicos y a gran escala asociados a elementos de incertidumbre.

Tecnologías industriales

El principal objetivo de «Plural reinforcement learning» (PLURELEARN) era desarrollar algoritmos y elaborar un marco teórico-práctico basado en las sinergias entre gran cantidad de planteamientos y modelos de aprendizaje. Para alcanzar su propósito el equipo se fijó tres metas: desarrollar un método de enseñanza que conjugase la docencia con el aprendizaje por ensayo y error; diseñar una metodología de descubrimiento de estructuras que se prestase al razonamiento sobre la incertidumbre en procesos Markov de elevadas dimensiones; y desarrollar sistemas de selección de algoritmos y mini estrategias. El equipo avanzó en pos de estos objetivos. Las investigaciones relativas al primero de ellos dieron lugar a artículos sobre la utilización de tutorías o asesoramiento por expertos en los modelos de aprendizaje por refuerzo. El trabajo del consorcio ilustró nuevos algoritmos para el problema del aprendizaje a partir de múltiples fuentes, así como su funcionamiento en aplicaciones a mediana escala. El problema del descubrimiento de estructuras, del que se ocupaba el segundo objetivo, resultó ser ciertamente complejo. Tras desarrollar los aspectos teóricos y prácticos de la selección de modelos y el descubrimiento de estructuras y constatar la dificultad que entraña la detección de estructuras dinámicas, el equipo diseñó dos métodos de mitigación de riesgos. El primero se basa en gradientes de políticas y va dirigido a problemas para los que existe un simulador. El segundo, por su parte, se asienta sobre un sólido sistema de optimización enfocado hacia un par de incertidumbres entre estados. En cuanto al tercer objetivo, los investigadores confeccionaron dos estrategias orientadas a la optimización del rendimiento; una para modificar opciones y generar otras nuevas y mejoradas, y otra para utilizar opciones «generadas aleatoriamente» a fin de agilizar los procesos de planificación y aprendizaje. El equipo logró desarrollar un nuevo marco de planificación y aprendizaje adaptado a entornos variables y basados en datos. La investigación podría sentar las bases para futuras acciones de optimización a gran escala de sistemas dinámicos, lo que a su vez permitiría resolver problemas a mayor escala.

Palabras clave

Descubra otros artículos del mismo campo de aplicación

El reino animal como fuente de inspiración para ayudar a los robots a recuperarse

25 Octubre 2021

La piel artificial permite a los robots industriales comprender a sus compañeros de trabajo humanos

22 Noviembre 2021

Ayudar a los robots a familiarizarse con el mundo real

17 Mayo 2021

El enfoque de prioridad a las personas ayuda a crear confianza en la inteligencia artificial de fabricación

1 Agosto 2023

Información del proyecto

PLURELEARN

Identificador del acuerdo de subvención: 249254

Proyecto cerrado

Fecha de inicio 1 Noviembre 2009

Fecha de finalización 31 Octubre 2013

Financiado con arreglo a

Specific programme "People" implementing the Seventh Framework Programme of the European Community for research, technological development and demonstration activities (2007 to 2013)

Coste total

€ 100 000,00

Aportación de la UE

€ 100 000,00

100 000,00

Coordinado por

TECHNION - ISRAEL INSTITUTE OF TECHNOLOGY
Israel

Palabras clave

Descubra otros artículos del mismo campo de aplicación

Descargar Descargar el contenido de la página