Description du projet
Des mécanismes de vérification pour l’apprentissage par renforcement
L’apprentissage par renforcement (AR) est une méthode d’entraînement automatique qui permet à un agent (IA) d’apprendre par essais et erreurs. Cependant, cette technique pâtit souvent d’un déficit de mécanismes permettant d’assurer un fonctionnement toujours correct en ce qui concerne les tâches sophistiquées et les spécifications de sécurité. La vérification formelle (VF) s’appuie sur des méthodes rigoureuses et des spécifications précises pour garantir l’exactitude d’un système. Toutefois, des problématiques critiques limitent fortement l’application de la VF à l’AR. Le projet DEUCE, financé par l’UE, entend élaborer des solutions de vérification innovantes reposant sur les données qui s’intégreront étroitement à l’AR. Il concevra des schémas d’abstraction fondés sur l’apprentissage qui condenseront les parties du système pertinentes pour l’exactitude et l’utilisation, et définira des modèles dont l’expressivité tiendra compte de plusieurs types d’incertitude. DEUCE fournira des mécanismes de VF s’appuyant sur des modèles pour explorer les agents AR de manière sûre et exacte.
Objectif
Reinforcement learning (RL) agents learn to behave optimally via trial and error, without the need to encode complicated behavior explicitly. However, RL generally lacks mechanisms to constantly ensure correct behavior regarding sophisticated task and safety specifications.
Formal verification (FV), and in particular model checking, provides formal guarantees on a system's correctness based on rigorous methods and precise specifications. Despite active development by researchers from all over the world, fundamental challenges obstruct the application of FV to RL so far.
We identify three key challenges that frame the objectives of this proposal.
(1) Complex environments with large degrees of freedom induce large state and feature spaces. This curse of dimensionality poses a longstanding problem for verification.
(2) Common approaches for the correctness of RL systems employ idealized discrete state spaces.
However, realistic problems are often continuous.
(3) Knowledge about real-world environments is inherently uncertain.
To ensure safety, correctness guarantees need to be robust against such imprecise knowledge about the environment.
The main objective of the DEUCE project is to develop novel and data-driven verification methods that tightly integrate with RL. To cope with the curse of dimensionality, we devise learning-based abstraction schemes that distill the system parts that are relevant for the correctness. We employ and define models whose expressiveness captures various types of uncertainty. These models are the basis for formal and data-driven abstractions of continuous spaces. We provide model-based FV mechanisms that ensure safe and correct exploration for RL agents.
DEUCE will elevate the scalability and expressiveness of verification towards real-world deployment of reinforcement learning.
Champ scientifique
Mots‑clés
Programme(s)
- HORIZON.1.1 - European Research Council (ERC) Main Programme
Thème(s)
Régime de financement
HORIZON-ERC - HORIZON ERC GrantsInstitution d’accueil
44801 Bochum
Allemagne