Skip to main content
Aller à la page d’accueil de la Commission européenne (s’ouvre dans une nouvelle fenêtre)
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary
Contenu archivé le 2024-06-18
Plural Reinforcement Learning

Article Category

Article available in the following languages:

Apprendre dans des environnements dynamiques

Un projet financé par l'UE a établi un nouveau paradigme pour l'apprentissage dans des environnements dynamiques à grande échelle comportant des éléments d'incertitude.

L'objectif global du projet PLURELEARN («Plural reinforcement learning») était de développer des algorithmes, des théories et des applications qui utilisent un grand nombre d'approches et de modèles de formation de manière synergique. Pour atteindre ce but, l'équipe de projet a identifié trois objectifs: développer une approche d'apprentissage combinant la formation par un enseignant et l'apprentissage par essais et erreurs; élaborer une méthodologie de découverte de structure pour raisonner sur l'incertitude dans les processus de Markov à dimensions multiples; développer des approches pour la sélection des algorithmes et des mini-stratégies. L'équipe a fait des progrès vers ces objectifs. La recherche sur le premier objectif a abouti à des articles sur la manière d'utiliser un tuteur ou un avis d'expert dans le renforcement des paradigmes d'apprentissage. Le travail a permis de montrer de nouveaux algorithmes pour le problème de l'apprentissage à partir de sources multiples, ainsi que la manière dont les algorithmes fonctionnent dans des applications à moyenne échelle. Le problème de la découverte de structure (objectif 2) s'est avéré relativement complexe. Après avoir développé les aspects théoriques et appliqués de la sélection de modèle et de la découverte de structure montrant la difficulté de détecter une structure dynamique, l'équipe a développé deux approches pour réduire les risques. La première est basée sur les gradients politiques et orientée vers les problèmes où un simulateur est disponible. La seconde est basée sur une approche d'optimisation robuste, où l'attention est portée sur un couple d'incertitudes entre états. Pour le troisième objectif, les chercheurs ont conçu deux stratégies qui peuvent aboutir à une amélioration des performances. La première consiste à modifier des options puis à générer de nouvelles options améliorées. La seconde consiste à utiliser des options «générées de manière aléatoire» pour accélérer la planification et l'apprentissage. Le projet a réussi à développer un nouveau cadre pour la planification et l'apprentissage dans des environnements variables en fonction des données. Ce travail de recherche a le potentiel de faire émerger de nouvelles opportunités en matière d'optimisation à grande échelle des systèmes dynamiques qui pourraient avoir un impact significatif sur l'échelle des problèmes pouvant être résolus.

Mots‑clés

Formation, environnements dynamiques, incertitude, renforcement des apprentissages.

Découvrir d’autres articles du même domaine d’application