European Commission logo
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS

Pan-genome Graph Algorithms and Data Integration

Descrizione del progetto

Rappresentazione basata su grafico dei dati della sequenza del genoma

La moderna tecnologia di sequenziamento produce dati sulla sequenza del genoma su una scala gigantesca che raggiunge gli exabyte. La domanda urgente emergente è come tali volumi di dati possano essere organizzati e analizzati in modo computazionalmente efficiente e biomedicamente significativo. Questo progetto finanziato dall’UE esplorerà la rappresentazione grafica di grandi set di dati del genoma e ne determinerà i vantaggi rispetto alla tradizionale presentazione basata su sequenza di dati pan-genomici. Genomi che sono evolutivamente vicini variano solo di poco e la rappresentazione pan-genomica basata su grafici consente di rimuovere le ridondanze evidenziando le differenze importanti. La ricerca dimostrerà il vantaggio del passaggio al nuovo approccio di rappresentazione dei dati utilizzando l’analisi comparativa, la compressione, l’integrazione e la valorizzazione dei dati del genoma come punti fondamentali.

Obiettivo

Genomes are strings over the letters A,C,G,T, which represent nucleotides, the building blocks of DNA. In view of ultra-large amounts of genome sequence data emerging from ever more and technologically rapidly advancing genome sequencing devices—in the meantime, amounts of sequencing data accrued are reaching into the exabyte scale—the driving, urgent question is: how can we arrange and analyze these data masses in a formally rigorous, computationally efficient and biomedically rewarding manner?
Graph based data structures have been pointed out to have disruptive benefits over traditional sequence based structures when representing pan-genomes, sufficiently large, evolutionarily coherent collections of genomes. This idea has its immediate justification in the laws of genetics: evolutionarily closely related genomes vary only in relatively little amounts of letters, while sharing the majority of their sequence content. Graph-based pan-genome representations that allow to remove redundancies without having to discard individual differences, make utmost sense. In this project, we will put this shift of paradigms—from sequence to graph based representations of genomes—into full effect. As a result, we can expect a wealth of practically relevant advantages, among which arrangement, analysis, compression, integration and exploitation of genome data are the most fundamental points. In addition, we will also open up a significant source of inspiration for computer science itself.

Coordinatore

UNIVERSITA' DEGLI STUDI DI MILANO-BICOCCA
Contribution nette de l'UE
€ 197 800,00
Indirizzo
PIAZZA DELL'ATENEO NUOVO 1
20126 MILANO
Italia

Mostra sulla mappa

Regione
Nord-Ovest Lombardia Milano
Tipo di attività
Higher or Secondary Education Establishments
Collegamenti
Costo totale
€ 197 800,00

Partecipanti (6)

Partner (6)