Skip to main content
Un site web officiel de l’Union européenne Un site officiel de l’UE
Aller à la page d’accueil de la Commission européenne (s’ouvre dans une nouvelle fenêtre)
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS
Data-Efficient Scalable Reinforcement Learning for Practical Robotic Environments

Article Category

Article available in the following languages:

Concevoir des algorithmes pour les données plus exigeantes

Les chercheurs en apprentissage automatique doivent souvent surmonter le passage dit «sim-to-real», où il s’agit de reproduire, dans des essais de performance, les prouesses algorithmiques accomplies au cours des simulations informatiques. Pour y parvenir, DESIRE a produit un algorithme de prise de décision robuste basé sur les données.

Les progrès de l’informatique, comme l’illustre le cas du jeu AlphaGo(s’ouvre dans une nouvelle fenêtre), requièrent et génèrent de grandes quantités de données. Pour faire face à ces volumes de données importants, les chercheurs s’appuient sur des algorithmes d’apprentissage automatique (Machine Learning – ML) développés à partir de techniques telles que l’apprentissage par renforcement(s’ouvre dans une nouvelle fenêtre) (Reinforcement Learning – RL), ainsi que, parallèlement, sur les avancées de l’intelligence artificielle (IA). Toutefois, même si ces algorithmes peuvent s’avérer efficaces dans le cadre des simulations, ils se révèlent souvent décevants dans le monde réel. Ces performances défaillantes importent fortement dans des domaines où les enjeux sont élevés, comme la robotique, où, pour des raisons pratiques et financières, il n’est possible d’entreprendre qu’un nombre limité d’essais. Le projet DESIRE, soutenu par l’UE, a pour but d’améliorer la robustesse des algorithmes d’optimisation, d’apprentissage et de contrôle sur lesquels reposent de nombreuses innovations qui ciblent un contrôle autonome.

Kernel-DRO

L’un des principaux écueils du passage sim-to-real est un phénomène rencontré en ML, qu’on appelle «changement de distribution». En d’autres termes, cela correspond à une situation où un écart apparaît entre la distribution des informations dans les ensembles de données utilisés pour l’entraînement et ceux employés pour les essais menés dans le monde réel. «Cela est généralement dû à la façon trop simpliste dont les ensembles de données de test représentent les conditions du monde réel», explique le chercheur Jia-Jie Zhu(s’ouvre dans une nouvelle fenêtre), qui a reçu le soutien du programme Actions Marie Skłodowska-Curie(s’ouvre dans une nouvelle fenêtre). «Le changement de distribution a été l’un des principaux problèmes affectant les algorithmes d’apprentissage et de contrôle et il a constitué un obstacle aux progrès», ajoute Jia-Jie Zhu, affilié à l’institut Max-Planck pour les systèmes intelligents(s’ouvre dans une nouvelle fenêtre) (l’hôte du projet). Le projet DESIRE s’est appuyé sur des méthodes reposant sur ce que l’on appelle l’astuce du noyau(s’ouvre dans une nouvelle fenêtre) afin de limiter ce changement de distribution. Il s’agit de calculs qui améliorent la fiabilité des algorithmes en reconnaissant des schémas dans les données, et en identifiant puis en organisant les relations au sein de ces données en fonction de caractéristiques prédéterminées telles que les corrélations ou les classifications. Cela a permis à DESIRE de créer un algorithme employant une optimisation basée sur un noyau robuste du point de vue distributionnel (Kernel-DRO – kernel distributionally robust optimisation), dans lequel les décisions, telles que les commandes destinées à contrôler les robots, sont déterminées de façon robuste.

Une vaste gamme d’applications potentielles

Outre le fait de contribuer à la littérature(s’ouvre dans une nouvelle fenêtre) relative à la théorie de l’optimisation mathématique, du contrôle et du ML, les travaux de DESIRE ont, malgré leur nature théorique, toute une série d’implications très pratiques. Cette vaste gamme d’applications potentielles constitue précisément l’un des points forts de la solution Kernel-DRO proposée par l’équipe. «De nombreuses tâches d’apprentissage actuelles souffrent du caractère ambigu de la distribution des données. Nous estimons que les professionnels de l’industrie ou du commerce cherchant à améliorer la robustesse de leur apprentissage automatique pourront facilement appliquer notre algorithme», explique Jia-Jie Zhu. Pour aller plus loin, Jia-Jie Zhu cherche désormais à créer des algorithmes d’apprentissage à plus grande échelle, capables de prendre en compte des entrées de données plus aléatoires, adaptées aux applications industrielles. Le principe de robustesse des données est par exemple appliqué pour la modélisation du contrôle prédictif, une méthode de contrôle très efficace et utile pour les applications critiques en matière de sécurité, comme les commandes de vol, le contrôle des processus chimiques et la robotique.

Découvrir d’autres articles du même domaine d’application

Mon livret 0 0 Article