Descripción del proyecto
Representación en gráficos de los datos de la secuencia del genoma
La tecnología de secuenciación moderna genera datos de la secuencia del genoma a una escala gigantesca que llega hasta los exabytes. La cuestión apremiante que se plantea es cómo podrían ordenarse y analizarse estos volúmenes de datos de forma eficiente desde el punto de vista informático y con sentido desde el punto de vista biomédico. Este proyecto financiado con fondos europeos va a analizar la representación basada en gráficos de grandes conjuntos de datos genómicos y determinará sus ventajas respecto a la presentación tradicional basada en secuencias de datos pangenómicos. Los genomas que son evolutivamente cercanos tan solo varían ligeramente y la representación pangenómica basada en gráficos permite eliminar redundancias, a la vez que destaca las diferencias importantes. La investigación va a demostrar la ventaja del cambio al nuevo método de representación de datos utilizando el análisis comparativo, la compresión, la integración y la explotación de datos genómicos como aspectos fundamentales.
Objetivo
Genomes are strings over the letters A,C,G,T, which represent nucleotides, the building blocks of DNA. In view of ultra-large amounts of genome sequence data emerging from ever more and technologically rapidly advancing genome sequencing devices—in the meantime, amounts of sequencing data accrued are reaching into the exabyte scale—the driving, urgent question is: how can we arrange and analyze these data masses in a formally rigorous, computationally efficient and biomedically rewarding manner?
Graph based data structures have been pointed out to have disruptive benefits over traditional sequence based structures when representing pan-genomes, sufficiently large, evolutionarily coherent collections of genomes. This idea has its immediate justification in the laws of genetics: evolutionarily closely related genomes vary only in relatively little amounts of letters, while sharing the majority of their sequence content. Graph-based pan-genome representations that allow to remove redundancies without having to discard individual differences, make utmost sense. In this project, we will put this shift of paradigms—from sequence to graph based representations of genomes—into full effect. As a result, we can expect a wealth of practically relevant advantages, among which arrangement, analysis, compression, integration and exploitation of genome data are the most fundamental points. In addition, we will also open up a significant source of inspiration for computer science itself.
Ámbito científico (EuroSciVoc)
CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural.
CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural.
- ciencias naturalesciencias biológicasgenéticaADN
- ciencias naturalesinformática y ciencias de la información
- ciencias naturalesciencias biológicasgenéticanucleótido
- ciencias naturalesmatemáticasmatemáticas purasmatemáticas discretasteoría de grafos
- ciencias naturalesciencias biológicasgenéticagenoma
Para utilizar esta función, debe iniciar sesión o registrarse
Palabras clave
Programa(s)
Régimen de financiación
MSCA-RISE - Marie Skłodowska-Curie Research and Innovation Staff Exchange (RISE)Coordinador
20126 Milano
Italia