Skip to main content
European Commission logo print header

Efficient sequential decision making under uncertainty

Article Category

Article available in the following languages:

Decisiones en un entorno de incertidumbre

Un proyecto financiado con fondos europeos ha creado métodos computacionales eficaces para automatizar el aprendizaje y la toma de decisiones ante situaciones de incertidumbre. Estas técnicas tienen aplicación en muy distintos campos, como la seguridad de redes, la robótica y la gestión del tráfico.

Economía digital icon Economía digital

La teoría de la decisión estadística ofrece un marco en el que dar con soluciones óptimas pero, en muchos casos, no es posible contar con inferencias ni con planificaciones exactas. Para dar solución a estos inconvenientes se dotó de fondos europeos al proyecto «Efficient sequential decision making under uncertainty» (ESDEMUU). En él se trabajó en el desarrollo de métodos por aproximación eficientes con los que aplicar técnicas de toma de decisiones y aprendizaje casi óptimos a este tipo de problemas. Uno de ellos de especial relevancia consiste en el aprendizaje por refuerzo, en el que un agente de aprendizaje o inteligente ha de aprender para tomar decisiones en un entorno del que se conoce únicamente las interacciones que se mantienen con él y, de este modo, aprovechar al máximo las recompensas que obtiene durante su tiempo de vida. No obstante, una de las mayores complicaciones surge de la dificultad de computar el parámetro de distribución. El proyecto se planteó buscar soluciones mediante el desarrollo de modelos que puedan utilizarse con funciones de valores variables y con las que adoptar decisiones en un entorno con problemas de aprendizaje concretos. Otro problema de adopción secuencial de decisiones implica aprender a actuar a partir de demostraciones. En este caso, el proyecto expandió una generalización rígida para que abarcase el problema que supone aprender de muchos profesores con distintas preferencias. La solución de ESDEMUU al sistema DCOP («problema de optimización con restricciones distribuidas») implicó el descubrimiento de una política óptima aplicable a un grupo de agentes participantes entre los que la comunicación resulta incompleta. Sus responsables desarrollaron por tanto algoritmos capaces de resolver con eficacia este tipo de problemas. Por último, el proyecto —ya finalizado— propuso un marco innovador en el que modelar procesos con recompensas escasas en los que un agente de aprendizaje se sitúa en un entorno desconocido y debe elegir entre una serie de objetivos enfrentados. La principal utilidad de este método residirá en aplicaciones de las tecnologías de la información y la comunicación (TIC) como la seguridad y la detección de intrusos en redes.

Descubra otros artículos del mismo campo de aplicación