The missing mathematical story of Bayesian uncertainty quantification for big data

Descrizione del progetto

Fare luce nella scatola nera degli algoritmi bayesiani per i megadati

L’analisi bayesiana, un metodo di inferenza statistica che applica la probabilità per aggiornare le nostre convinzioni in merito al modello basato sulle osservazioni, è fondamentale in relazione a numerosi algoritmi statistici e di apprendimento automatico per i megadati. Tale tipologia di analisi supporta la comprensione dei processi per problemi complessi, tra cui la valutazione dei cambiamenti climatici e il tracciamento della diffusione di malattie specifiche. Ciononostante, i metodi bayesiani stanno raggiungendo il proprio limite nel tentativo di sostenere l’esplosione dei dati disponibili e i tentativi volti ad accelerarne l’elaborazione sono per lo più costituiti da soluzioni a scatola nera. Il progetto BigBayesUQ, finanziato dall’UE, sta sviluppando una teoria per metodi bayesiani scalabili che consentirà la quantificazione delle prestazioni, dei limiti e dell’incertezza. In tal modo sarà possibile migliorare la precisione e di conseguenza il supporto offerto da un’ampia comunità di scienziati e ricercatori.

Obiettivo

Recent years have seen a rapid increase in available information. This has created an urgent need for fast statistical and machine learning methods that can scale up to big data sets. Standard approaches, including the now routinely used Bayesian methods, are becoming computationally infeasible, especially in complex models with many parameters and large data sizes. A variety of algorithms have been proposed to speed up these procedures, but these are typically black box methods with very limited theoretical support. In fact empirical evidence shows the potentially bad performance of such methods. This is especially concerning in real-world applications, e.g. in medicine. In this project I shall open up the black box and provide a theory for scalable Bayesian methods combining recent, state-of-the-art techniques from Bayesian nonparametrics, empirical process theory, and machine learning. I focus on two very important classes of scalable techniques: variational and distributed Bayes. I shall establish guarantees, but also limitations, of these procedures for estimating the parameter of interest, and for quantifying the corresponding uncertainty, within a framework that will also convince outside of the Bayesian paradigm. As a result, scalable Bayesian techniques will have more accurate performance, and also better acceptance by a wider community of scientists and practitioners. The proposed research, although motivated by real world problems, is of a mathematical nature. In the analysis I consider mathematical models, which are routinely used in various fields (e.g. high-dimensional linear and logistic regressions are the work horses in econometrics or genetics). My theoretical results will provide principled new insights that can be used, for instance in multiple specific applications I am involved in, including developing novel statistical methods for understanding fundamental questions in cosmology and the early detection of dementia using multiple data sources.

Campo scientifico

Istituzione ospitante

UNIVERSITA COMMERCIALE LUIGI BOCCONI

Contribution nette de l'UE

€ 1 492 750,00

Indirizzo

VIA SARFATTI 25
20136 Milano
Italia

Regione

Nord-Ovest Lombardia Milano

Tipo di attività

Higher or Secondary Education Establishments

Collegamenti

Contatta l’organizzazione Sito web

Partecipazione a programmi di R&I dell'UE

Rete di collaborazione HORIZON

Costo totale

€ 1 492 750,00

Beneficiari (1)

UNIVERSITA COMMERCIALE LUIGI BOCCONI

Italia

Contribution nette de l'UE

€ 1 492 750,00

Descrizione del progetto

Fare luce nella scatola nera degli algoritmi bayesiani per i megadati

Obiettivo

Campo scientifico

Programma(i)

Argomento(i)

Invito a presentare proposte

Meccanismo di finanziamento

Istituzione ospitante

Beneficiari (1)

Condividi questa pagina

Scarica