Provably Efficient Algorithms for Large-Scale Reinforcement Learning

Informations projet

SCALER

N° de convention de subvention: 950180

Site Web du projet

DOI

10.3030/950180

Date de signature de la CE 3 Septembre 2020

Date de début 1 Octobre 2021

Date de fin 30 Septembre 2026

Financé au titre de

EXCELLENT SCIENCE - European Research Council (ERC)

Coût total

€ 1 493 990,00

Contribution de l’UE

€ 1 493 990,00

1 493 990,00

Coordonné par

UNIVERSIDAD POMPEU FABRA
Spain

CORDIS fournit des liens vers les livrables publics et les publications des projets HORIZON.

Les liens vers les livrables et les publications des projets du 7e PC, ainsi que les liens vers certains types de résultats spécifiques tels que les jeux de données et les logiciels, sont récupérés dynamiquement sur OpenAIRE .

Livrables

Data Management Plan (DMP)

The Open Research Data Pilot will be prepared and submitted to the European Commission

Publications

Offline Primal-Dual Reinforcement Learning for Linear MDPs

Auteurs: G. Gabbianelli, G. Neu, N. Okolo, M. Papini
Publié dans: Proceedings of the Twenty-seventh International Conference on Artificial Intelligence and Statistics (AISTATS), 2024
Éditeur: Proceedings of Machine Learning Research

Scalable Representation Learning in Linear Contextual Bandits with Constant Regret Guarantees

Auteurs: Tirinzoni A.; Papini M.; Touati A.; Lazaric A.; Pirotta M.
Publié dans: Advances in Neural Information Processing Systems 35 (NeurIPS 2022), 2022
Éditeur: NeurIPS foundation
DOI: 10.48550/arxiv.2210.13083

Efficient Global Planning in Large MDPs via Stochastic Primal-Dual Optimization

Auteurs: Gergely Neu, Nneka Okolo
Publié dans: Proceedings of The 34th International Conference on Algorithmic Learning Theory (ALT 2023), 2023
Éditeur: Proceedings of Machine Learning Research

Lifting the Information Ratio: An Information-Theoretic Analysis of Thompson Sampling for Contextual Bandits

Auteurs: Gergely Neu, Julia Olkhovskaya, Matteo Papini, Ludovic Schwartz
Publié dans: Advances in Neural Information Processing Systems 35 (NeurIPS 2022), 2022
Éditeur: NeurIPS foundation

Nonstochastic Contextual Combinatorial Bandits

Auteurs: L. Zierahn, D. van der Hoeven, N. Cesa-Bianchi, G. Neu
Publié dans: Proceedings of the Twenty-sixth International Conference on Artificial Intelligence and Statistics (AISTATS), 2023
Éditeur: Proceedings of Machine Learning Research

Optimistic Information-Directed Sampling

Auteurs: G. Neu, M. Papini, L. Schwartz
Publié dans: Proceedings of the 36th Annual Conference on Learning Theory (COLT), 2024
Éditeur: Proceedings of Machine Learning Research

Dealing with Unbounded Gradients in Stochastic Saddle-Point Optimizaiton

Auteurs: G. Neu, N. Okolo
Publié dans: Proceedings of the 41st International Conference on Machine Learning (ICML), 2024
Éditeur: Proceedings of Machine Learning Research

Proximal Point Imitation Learning

Auteurs: Luca Viano, Angeliki Kamoutsi, Gergely Neu, Igor Krawczuk, Volkan Cevher
Publié dans: Advances in Neural Information Processing Systems 35 (NeurIPS 2022), 2022
Éditeur: NeurIPS foundation

Importance-Weighted Offline Learning Done Right

Auteurs: G. Gabbianelli, G. Neu, M. Papini
Publié dans: Proceedings of the 34th International Conference on Algorithmic Learning Theory (ALT), 2024
Éditeur: Proceedings of Machine Learning Research

Online learning with off-policy feedback

Auteurs: Germano Gabbianelli, Matteo Papini, Gergely Neu
Publié dans: Proceedings of The 34th International Conference on Algorithmic Learning Theory (ALT 2023), 2023
Éditeur: Proceedings of Machine Learning Research

First-and Second-Order Bounds for Adversarial Linear Contextual Bandits

Auteurs: J. Olkhovskaya, J. Mayo, T. van Erven, G. Neu, C.-Y. Wei
Publié dans: Advances in Neural Information Processing Systems 36 (NeurIPS), 2023
Éditeur: NeurIPS foundation

Optimistic Planning by Regularized Dynamic Programming

Auteurs: Antoine Moulin, Gergely Neu
Publié dans: International Conference on Machine Learning (ICML 2022), 2023
Éditeur: Proceedings of Machine Learning Research

Generalization bounds via convex analysis

Auteurs: Gabor Lugosi, Gergely Neu
Publié dans: Proceedings of Thirty Fifth Conference on Learning Theory (COLT 2022), 2022
Éditeur: Proceedings of Machine Learning Research

Adversarial Contextual Bandits Go Kernelized

Auteurs: G. Neu, J. Olkhovskaya, S. Vakili
Publié dans: Proceedings of the 34th International Conference on Algorithmic Learning Theory (ALT), 2024
Éditeur: Proceedings of Machine Learning Research

Smoothing policies and safe policy gradients

Auteurs: Matteo Papini; Matteo Pirotta; Marcello Restelli
Publié dans: Machine Learning, Numéro 111, 2022, Page(s) 4081–4137, ISSN 1573-0565
Éditeur: Springer
DOI: 10.1007/s10994-022-06232-6

A note on regularised NTK dynamics with an application to PAC-Bayesian training

Auteurs: Clerico, Eugenio; Guedj, Benjamin
Publié dans: Transactions on Machine Learning Research, 2024, ISSN 2835-8856
Éditeur: Transactions on Machine Learning Research
DOI: 10.48550/arxiv.2312.13259

Recherche de données OpenAIRE...

Livrables

Publications

Partager cette page Partager cette page sur les réseaux sociaux

Télécharger Télécharger le contenu de la page