European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS

Pan-genome Graph Algorithms and Data Integration

Description du projet

Une représentation graphique des données de séquence du génome

La technologie de séquençage moderne produit des données de séquence de génome à une échelle gigantesque qui se chiffrent en exaoctets. La nouvelle, et urgente, question consiste à se demander comment organiser et analyser ces volumes de données de manière efficace sur le plan des calculs et de manière significative sur le plan biomédical. Ce projet financé par l’UE explorera la représentation graphique de grands ensembles de données génomiques et déterminera leurs avantages par rapport à la présentation traditionnelle basée sur des séquences de données pan-génomiques. Les génomes évolutivement proches varient peu et la représentation pan-génomique graphique permet de supprimer les redondances tout en mettant en évidence des différences importantes. La recherche démontrera l’avantage du passage à la nouvelle approche de représentation des données en utilisant l’analyse comparative, la compression, l’intégration et l’exploitation des données du génome comme points fondamentaux.

Objectif

Genomes are strings over the letters A,C,G,T, which represent nucleotides, the building blocks of DNA. In view of ultra-large amounts of genome sequence data emerging from ever more and technologically rapidly advancing genome sequencing devices—in the meantime, amounts of sequencing data accrued are reaching into the exabyte scale—the driving, urgent question is: how can we arrange and analyze these data masses in a formally rigorous, computationally efficient and biomedically rewarding manner?
Graph based data structures have been pointed out to have disruptive benefits over traditional sequence based structures when representing pan-genomes, sufficiently large, evolutionarily coherent collections of genomes. This idea has its immediate justification in the laws of genetics: evolutionarily closely related genomes vary only in relatively little amounts of letters, while sharing the majority of their sequence content. Graph-based pan-genome representations that allow to remove redundancies without having to discard individual differences, make utmost sense. In this project, we will put this shift of paradigms—from sequence to graph based representations of genomes—into full effect. As a result, we can expect a wealth of practically relevant advantages, among which arrangement, analysis, compression, integration and exploitation of genome data are the most fundamental points. In addition, we will also open up a significant source of inspiration for computer science itself.

Coordinateur

UNIVERSITA' DEGLI STUDI DI MILANO-BICOCCA
Contribution nette de l'UE
€ 197 800,00
Adresse
PIAZZA DELL'ATENEO NUOVO 1
20126 MILANO
Italie

Voir sur la carte

Région
Nord-Ovest Lombardia Milano
Type d’activité
Higher or Secondary Education Establishments
Liens
Coût total
€ 197 800,00

Participants (6)

Partenaires (6)