Projektbeschreibung
Sequenzierungsdaten des Genoms in Graphen darstellen
Die moderne Sequenzierungstechnologie erzeugt Genomsequenzdaten in einem gigantischen Ausmaß, das die Größenordnung von Exabytes erreichen kann. Dabei stellt sich die dringende Frage, wie diese Datenmengen auf rechnerisch effiziente und biomedizinisch sinnvolle Weise strukturiert und analysiert werden können. Dieses EU-finanzierte Projekt wird die auf Graphen basierende Darstellung großer Genom-Datensätze erforschen und hier Vorteile gegenüber der traditionellen sequenzbasierten Darstellung von pangenomischen Daten ermitteln. Evolutionär nahe beieinander liegende Genome unterscheiden sich nur wenig, und die graphenbasierte pangenomische Darstellung gestattet es, Redundanzen zu beseitigen und gleichzeitig die wichtigen Unterschiede hervorzuheben. Die Forschung wird den Vorteil der Umstellung auf den neuen Ansatz der Datendarstellung anhand vergleichender Analyse, Kompression, Integration und Nutzung von Genomdaten als grundlegende Punkte aufzeigen.
Ziel
Genomes are strings over the letters A,C,G,T, which represent nucleotides, the building blocks of DNA. In view of ultra-large amounts of genome sequence data emerging from ever more and technologically rapidly advancing genome sequencing devices—in the meantime, amounts of sequencing data accrued are reaching into the exabyte scale—the driving, urgent question is: how can we arrange and analyze these data masses in a formally rigorous, computationally efficient and biomedically rewarding manner?
Graph based data structures have been pointed out to have disruptive benefits over traditional sequence based structures when representing pan-genomes, sufficiently large, evolutionarily coherent collections of genomes. This idea has its immediate justification in the laws of genetics: evolutionarily closely related genomes vary only in relatively little amounts of letters, while sharing the majority of their sequence content. Graph-based pan-genome representations that allow to remove redundancies without having to discard individual differences, make utmost sense. In this project, we will put this shift of paradigms—from sequence to graph based representations of genomes—into full effect. As a result, we can expect a wealth of practically relevant advantages, among which arrangement, analysis, compression, integration and exploitation of genome data are the most fundamental points. In addition, we will also open up a significant source of inspiration for computer science itself.
Wissenschaftliches Gebiet
CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht.
CORDIS klassifiziert Projekte mit EuroSciVoc, einer mehrsprachigen Taxonomie der Wissenschaftsbereiche, durch einen halbautomatischen Prozess, der auf Verfahren der Verarbeitung natürlicher Sprache beruht.
Schlüsselbegriffe
Programm/Programme
Aufforderung zur Vorschlagseinreichung
Andere Projekte für diesen Aufruf anzeigenKoordinator
20126 Milano
Italien