Skip to main content
Un site web officiel de l’Union européenneUn site officiel de l’UE
European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary

First use of probabilistic programming for hard problems in statistical phylogenetics

Description du projet

Une approche probabiliste de l’analyse statistique de la phylogénétique

L’analyse statistique des modèles phylogénétiques est actuellement l’un des secteurs de recherche les plus actifs en biologie computationnelle, avec de vastes applications dans les domaines de la théorie de l’évolution, de l’épidémiologie et de la médecine légale. Les approches computationnelles d’inférence existantes basées sur les méthodes de Monte-Carlo par chaînes de Markov (MCMC) ne sont pas aussi efficaces que les algorithmes d’inférence de Monte Carlo séquentiels (SMC). L’objectif du projet PhyPPL, financé par l’UE, est d’appliquer la programmation probabiliste pour générer automatiquement des modèles d’inférence SMC pour les problèmes phylogénétiques difficiles à résoudre avec les méthodes MCMC. Plus précisément, le projet concevra des algorithmes d’inférence statistique pour des modèles de diversification complexes avec une topologie arborescente variable et un processus de ramification dépendant des caractères. Afin de démontrer le potentiel des nouveaux algorithmes, le projet les utilisera pour retracer l’impact de l’orogenèse andine sur la biodiversité néotropicale.

Objectif

Statistical analysis of phylogenetic models is one of the most active areas of research in computational biology today with wide applications in the Theory of Evolution, epidemiology, forensics, etc. Current phylogenetic software packages limit the user to the set of phylogenetic models and inference strategies that have been pre-programmed in the tool. Inference under certain important phylogenetic models is very difficult with the Markov chain Monte-Carlo strategy implemented in current packages for phylogenetic analysis. The new paradigm of probabilistic programming, coming from computational statistics and theoretical computer science, solves the model expression problem and enables the user to implement novel inference methods. We utilize probabilistic programming to automatically generate Sequential Monte Carlo (SMC) inference machinery for MCMC-hard problems in phylogentics. SMC algorithms may be more efficient, provide unbiased solutions, and provide likelihoods estimates for model comparison.

The goal of the proposed research is to carry out some of the first applications of probabilistic programming to real-world problems of empirical interest in evolutionary biology. The objectives are (1) to design and implement statistical inference machinery for complex diversification models with variable tree topology and a trait-dependent branching process under probabilistic programming, (2) to do a pilot study on the applicability of this inference machinery by studying the effect of the orogeny of the Andes on Neotropical biodiversity, and (3) contribute to the design and implementation of a novel probabilistic programming language for phylogenetics, TreePPL, by utilizing the insights gained from (1) and (2).

We also propose dissemination and communication measures that target scientists and the general public throughout Europe and in particular new and aspiring EU member states.

Coordinateur

NATURHISTORISKA RIKSMUSEET
Contribution nette de l'UE
€ 203 852,16
Adresse
Frescativägen 40
SE 114 18 Stockholm
Suède

Voir sur la carte

Région
Östra Sverige Stockholm Stockholms län
Type d’activité
Research Organisations
Liens
Coût total
€ 203 852,16