Skip to main content
Ir a la página de inicio de la Comisión Europea (se abrirá en una nueva ventana)
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS
Contenido archivado el 2024-06-18
Developmental trajectories for model-free and model-based reinforcement learning: computational and neural bases

Article Category

Article available in the following languages:

El aprendizaje basado en refuerzos mejora la toma de decisiones

Un estudio sobre el desarrollo del aprendizaje por refuerzo durante la adolescencia arrojó nuevos datos sobre la toma de decisiones basada en este tipo de estímulos durante dicha etapa de la vida.

La toma de decisiones es el resultado de varios procesos interrelacionados, como la representación del valor, la selección de respuestas y el aprendizaje. Durante la adolescencia, las decisiones suelen ser impulsivas y se asumen riesgos que pueden tener graves consecuencias. El aprendizaje por refuerzo permite integrar estos procesos. Esta estrategia consiste en aprender a tomar mejores decisiones en el futuro para maximizar las posibilidades de obtener resultados placenteros (recompensas) y limitar los desagradables (castigos). A pesar de la importancia de comprender los procesos que subyacen a la toma de decisiones durante la adolescencia, el desarrollo del aprendizaje por refuerzo en este grupo de edad no se había estudiado hasta hace poco. El proyecto financiado con fondos europeos DEVELOP-LEARNING (Developmental trajectories for model-free and model-based reinforcement learning: Computational and neural bases) se puso en marcha con el objetivo de suplir esta necesidad mediante experimentos conductuales. El primer experimento consistió en asignar a adultos y adolescentes una nueva tarea de aprendizaje instrumental basado en el aprendizaje mediante recompensas y castigos básicos y en la exposición a información contrafactual o ficticia. Los resultados indicaron que el comportamiento de los adolescentes no se beneficiaba de la información contrafactual y que estos aprendían más con la recompensa que con el castigo, mientras que los adultos aprendían en la misma medida de ambos tipos de refuerzo. En conclusión, los adultos y los adolescentes no utilizaban el mismo algoritmo para resolver tareas de aprendizaje. A diferencia de los adultos, los adolescentes no tenían en cuenta la información contrafactual, y aprendían a buscar la recompensa en lugar de evitar el castigo. Los adultos, por su parte, aprendían tanto a propiciar como a evitar refuerzos. Un mayor conocimiento de los cambios computacionales en el aprendizaje por refuerzo entre los adolescentes podría ayudar a explicar sus mecanismos de toma de decisiones basada en valores. Los resultados pueden resultar útiles en el ámbito de la educación, ya que parecen indicar que los adolescentes responden mejor a los estímulos positivos que a los negativos cuando realizan tareas de aprendizaje.

Descubra otros artículos del mismo campo de aplicación

Mi folleto 0 0