European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS

Efficient sequential decision making under uncertainty

Article Category

Article available in the following languages:

Prendre des décisions dans un environnement incertain

Un projet financé par l'UE a développé des méthodes informatiques efficaces pour un apprentissage automatisé et une prise de décision dans le contexte de l'incertitude. Ces techniques peuvent être utilisées dans différentes applications comme la sécurité des réseaux, la robotique et la gestion du trafic.

Économie numérique icon Économie numérique

La théorie de décision statistique offre un cadre pour des solutions optimales mais, dans de nombreux cas, l'inférence exacte et la planification sont inextricables. Réussir à surmonter ces obstacles était l'objectif du projet ESDEMUU («Efficient sequential decision making under uncertainty»), financé par l'UE. Le projet voulait développer des méthodes efficaces pour un apprentissage pratiquement optimal et un processus décisionnel dans des conditions complexes de ce type. Un puzzle intéressant concerne l'apprentissage par renforcement, dans lequel l'agent apprenant ou intelligent doit apprendre à agir dans un environnement inconnu, uniquement par le biais de l'interaction, en vue d'optimiser la récompense totale obtenue au cours de sa vie. Toutefois, une difficulté particulière fait son apparition quand la distribution des paramètres est difficile à mettre sous format informatique. Pour cette raison, le projet a développé des modèles pouvant être utilisés avec des fonctions de valeur distribuées pour procéder à un processus décisionnel dans ces problèmes spécifiques d'apprentissage. Un autre problème de prise de décision séquentielle impliquait l'apprentissage du comportement suite à des démonstrations. Dans ce cas, le projet a élargi le principe de généralisation au problème d'apprentissage par plusieurs enseignants aux préférences diverses. Dans ce système distribué de problèmes d'optimisation de contraintes (DCOP, pour distributed constraint optimization problem), le projet a résolu le problème de trouver une politique optimale pour un groupe d'agents de communication aux capacités de communication limitées. Il a développé des algorithmes pouvant résoudre efficacement ces problèmes. Enfin, le projet désormais terminé a proposé un cadre innovant pour la modélisation des processus de récompense limités, dans lequel un agent apprenant est placé dans un environnement inconnu et est confronté à une série d'objectifs contraires. L'utilisation principale de cette approche concernera les applications de TIC (technologies de l'information et de la communication) telles que la sécurité et la détection d'intrusion dans un réseau.

Découvrir d’autres articles du même domaine d’application