Decisiones en un entorno de incertidumbre
La teoría de la decisión estadística ofrece un marco en el que dar con soluciones óptimas pero, en muchos casos, no es posible contar con inferencias ni con planificaciones exactas. Para dar solución a estos inconvenientes se dotó de fondos europeos al proyecto «Efficient sequential decision making under uncertainty» (ESDEMUU). En él se trabajó en el desarrollo de métodos por aproximación eficientes con los que aplicar técnicas de toma de decisiones y aprendizaje casi óptimos a este tipo de problemas. Uno de ellos de especial relevancia consiste en el aprendizaje por refuerzo, en el que un agente de aprendizaje o inteligente ha de aprender para tomar decisiones en un entorno del que se conoce únicamente las interacciones que se mantienen con él y, de este modo, aprovechar al máximo las recompensas que obtiene durante su tiempo de vida. No obstante, una de las mayores complicaciones surge de la dificultad de computar el parámetro de distribución. El proyecto se planteó buscar soluciones mediante el desarrollo de modelos que puedan utilizarse con funciones de valores variables y con las que adoptar decisiones en un entorno con problemas de aprendizaje concretos. Otro problema de adopción secuencial de decisiones implica aprender a actuar a partir de demostraciones. En este caso, el proyecto expandió una generalización rígida para que abarcase el problema que supone aprender de muchos profesores con distintas preferencias. La solución de ESDEMUU al sistema DCOP («problema de optimización con restricciones distribuidas») implicó el descubrimiento de una política óptima aplicable a un grupo de agentes participantes entre los que la comunicación resulta incompleta. Sus responsables desarrollaron por tanto algoritmos capaces de resolver con eficacia este tipo de problemas. Por último, el proyecto —ya finalizado— propuso un marco innovador en el que modelar procesos con recompensas escasas en los que un agente de aprendizaje se sitúa en un entorno desconocido y debe elegir entre una serie de objetivos enfrentados. La principal utilidad de este método residirá en aplicaciones de las tecnologías de la información y la comunicación (TIC) como la seguridad y la detección de intrusos en redes.