Skip to main content
CORDIS - Forschungsergebnisse der EU
CORDIS

The missing mathematical story of Bayesian uncertainty quantification for big data

Projektbeschreibung

Blick in die Blackbox der bayesschen Algorithmen für Big Data

Die bayessche Analyse, eine Methode der statistischen Schlussfolgerung, bei der die Wahrscheinlichkeit zum Einsatz kommt, um unsere Annahmen über das Modell auf der Grundlage der Beobachtungen zu aktualisieren, ist für viele statistische und Maschinenlernalgorithmen für Big Data fundamental wichtig. Sie unterstützt das Verständnis von Prozessen bei komplexen Problemen einschließlich der Bewertung des Klimawandels und der Nachverfolgung der Ausbreitung einer Krankheit. Bayessche Methoden stoßen jedoch an ihre Grenzen, wenn es darum geht, das explosionsartige Anwachsen der verfügbaren Daten zu berücksichtigen. Bei den Versuchen, deren Verarbeitung zu beschleunigen, handelt es sich hauptsächlich um Blackbox-Lösungen. Das EU-finanzierte Projekt BigBayesUQ wird nun eine Theorie für skalierbare bayessche Verfahren entwickeln, die eine Quantifizierung von Leistungseigenschaften, Einschränkungen und Unsicherheit zulassen. Auf diese Weise wird die Genauigkeit verbessert und in der Folge das Anliegen von der breiten wissenschaftlichen Gemeinschaft unterstützt werden.

Ziel

Recent years have seen a rapid increase in available information. This has created an urgent need for fast statistical and machine learning methods that can scale up to big data sets. Standard approaches, including the now routinely used Bayesian methods, are becoming computationally infeasible, especially in complex models with many parameters and large data sizes. A variety of algorithms have been proposed to speed up these procedures, but these are typically black box methods with very limited theoretical support. In fact empirical evidence shows the potentially bad performance of such methods. This is especially concerning in real-world applications, e.g. in medicine. In this project I shall open up the black box and provide a theory for scalable Bayesian methods combining recent, state-of-the-art techniques from Bayesian nonparametrics, empirical process theory, and machine learning. I focus on two very important classes of scalable techniques: variational and distributed Bayes. I shall establish guarantees, but also limitations, of these procedures for estimating the parameter of interest, and for quantifying the corresponding uncertainty, within a framework that will also convince outside of the Bayesian paradigm. As a result, scalable Bayesian techniques will have more accurate performance, and also better acceptance by a wider community of scientists and practitioners. The proposed research, although motivated by real world problems, is of a mathematical nature. In the analysis I consider mathematical models, which are routinely used in various fields (e.g. high-dimensional linear and logistic regressions are the work horses in econometrics or genetics). My theoretical results will provide principled new insights that can be used, for instance in multiple specific applications I am involved in, including developing novel statistical methods for understanding fundamental questions in cosmology and the early detection of dementia using multiple data sources.

Programm/Programme

Gastgebende Einrichtung

UNIVERSITA COMMERCIALE LUIGI BOCCONI
Netto-EU-Beitrag
€ 1 492 750,00
Adresse
VIA SARFATTI 25
20136 Milano
Italien

Auf der Karte ansehen

Region
Nord-Ovest Lombardia Milano
Aktivitätstyp
Higher or Secondary Education Establishments
Links
Gesamtkosten
€ 1 492 750,00

Begünstigte (1)