Opis projektu
Od sekwencji do reprezentacji wykorzystującej grafy – zmiana paradygmatu w genomice
Sekwencjonowanie genomu pozwala określić kolejność, zasad azotowych A, C, G i T odpowiadających nukleotydom DNA w genomie organizmu. Ponieważ nauka w tym zakresie cały czas się rozwija, na całym świecie gromadzi się coraz większe ilości danych związanych z tym zagadnieniem. Finansowany z działania „Maria Skłodowska-Curie” projekt ALPACA posłuży opracowaniu reprezentacji genomu wykorzystującej grafy, która bazuje na łączeniu pojedynczych wariacji w sposób uzasadniony ewolucyjnie. Dzięki temu stanie się możliwe przetwarzanie i analizowanie sekwencjonowanych danych w znacznym stopniu, w sposób bardziej wydajny od oferowanego przez typowe podejścia, które bazują na zwykłych sekwencyjnych reprezentacjach genomu. Zmiana paradygmatu odegra kluczową rolę w rozwijaniu medycyny spersonalizowanej i analizie patogenów.
Cel
Genomes are strings over the letters A,C,G,T, which represent nucleotides, the building blocks of DNA. In view of ultra-large amounts of genome sequence data emerging from ever more and technologically rapidly advancing genome sequencing devices—in the meantime, amounts of sequencing data accrued are reaching into the exabyte scale—the driving, urgent question is: how can we arrange and analyze these data masses in a formally rigorous, computationally efficient and biomedically rewarding manner?
Graph based data structures have been pointed out to have disruptive benefits over traditional sequence based structures when representing pan-genomes, sufficiently large, evolutionarily coherent collections of genomes. This idea has its immediate justification in the laws of genetics: evolutionarily closely related genomes vary only in relatively little amounts of letters, while sharing the majority of their sequence content. Graph-based pan-genome representations that allow to remove redundancies without having to discard individual differences, make utmost sense. In this project, we will put this shift of paradigms—from sequence to graph based representations of genomes—into full effect. As a result, we can expect a wealth of practically relevant advantages, among which arrangement, analysis, compression, integration and exploitation of genome data are the most fundamental points. In addition, we will also open up a significant source of inspiration for computer science itself.
For realizing our goals, our network will (i) decisively strengthen and form new ties in the emerging community of computational pan-genomics, (ii) perform research on all relevant frontiers, aiming at significant computational advances at the level of important breakthroughs, and (iii) boost relevant knowledge exchange between academia and industry. Last but not least, in doing so, we will train a new, “paradigm-shift-aware” generation of computational genomics researchers.
Dziedzina nauki (EuroSciVoc)
Klasyfikacja projektów w serwisie CORDIS opiera się na wielojęzycznej taksonomii EuroSciVoc, obejmującej wszystkie dziedziny nauki, w oparciu o półautomatyczny proces bazujący na technikach przetwarzania języka naturalnego.
Klasyfikacja projektów w serwisie CORDIS opiera się na wielojęzycznej taksonomii EuroSciVoc, obejmującej wszystkie dziedziny nauki, w oparciu o półautomatyczny proces bazujący na technikach przetwarzania języka naturalnego.
- nauki przyrodniczenauki biologicznegenetykaDNA
- nauki przyrodniczenauki biologicznegenetykanukleotyd
- nauki przyrodniczenauki biologicznegenetykagenom
- nauki społeczneprawo
Aby użyć tej funkcji, musisz się zalogować lub zarejestrować
Słowa kluczowe
Program(-y)
Zaproszenie do składania wniosków
Zobacz inne projekty w ramach tego zaproszeniaSystem finansowania
MSCA-ITN - Marie Skłodowska-Curie Innovative Training Networks (ITN)Koordynator
33615 Bielefeld
Niemcy