Natural Language Processing to learn the language of the Human Genome

Informazioni relative al progetto

GROVER

ID dell’accordo di sovvenzione: 101108109

DOI

10.3030/101108109

Data della firma CE 8 Maggio 2023

Data di avvio 1 Settembre 2024

Data di completamento 31 Agosto 2026

Finanziato da

Marie Skłodowska-Curie Actions (MSCA)

Costo totale

Nessun dato

Contributo UE

€ 173 847,36

Coordinato da

TECHNISCHE UNIVERSITAET DRESDEN
Germany

Descrizione del progetto

Leggere il genoma umano grazie all’elaborazione del linguaggio naturale

I modelli di elaborazione del linguaggio naturale (ELN) non supervisionati possono consentire di compiere progressi rivoluzionari grazie all’apprendimento della struttura del linguaggio; a tal fine, tuttavia, è necessaria una comprensione più approfondita degli aspetti linguistici del nostro genoma. Il progetto GROVER, finanziato dall’UE, sfrutta le tecniche di ELN per analizzare il genoma umano, trattandolo come una sequenza di testo. Il progetto si avvale della tokenizzazione delle coppie di byte per creare un vocabolario dalle sequenze di DNA, analizzando inoltre le mappe di attenzione per discernere le relazioni di formazione esistenti tra le diverse «parole» all’interno del genoma. Il progetto esplora le regole linguistiche ricorrendo all’impiego dei metodi relativi alla linguistica dei corpora. GROVER combina varie tecniche per studiare la grammatica e la sintassi del genoma svolgendo compiti di predizione biologica con modelli finemente sintonizzati e implementando metodi di apprendimento interpretabili. Inoltre, il progetto impiega strategie per mitigare i pregiudizi etnici, cercando di rivoluzionare l’analisi dei dati genomici.

Obiettivo

Natural language processing (NLP) models trained on text without explicit supervision can have groundbreaking performance. They can develop a notion for grammar, syntax, and semantics, thus learning the structure of language. However, while we have defined the rules in our language, we only have a basic understanding about the linguistics of our genome. In this project, our goal is to treat the human genome as a sequence of text and apply NLP techniques to the human DNA sequence. We will establish byte-pair tokenization to generate vocabulary from DNA sequence and analyse attention maps to see the training relationship between different “words” of the genome. We will then further investigate the language rules using methods from corpus linguistics. Together, this will allow us to explore the grammar, syntax, and semantics hidden in the genome and capture their biological meaning. For proof-of-principle, we will perform several biological prediction tasks with fine-tuning models, built on top of the pretrained model. First, we will take popular genomic prediction tasks to benchmark our approach, such as predicting genome elements, transcription, and precision of genome editing. Then we will add some novel tasks around genome stability using available multi-omics data. Throughout the project we will implement techniques for interpretable learning and strategies to observe, control, and prevent ethnic biases in our approach.
We expect for large language models to change how we, as a scientific field, approach genomics data analysis and expect our models to establish how these techniques can be applied efficiently, transparently, and in a bias-reduced way. In addition to general understanding of genome biology, we plan to use our models in the future for technical improvements of data analysis, population genetics, and for translational uses with applications in cancer genomics and genome editing.

Campo scientifico (EuroSciVoc)

CORDIS classifica i progetti con EuroSciVoc, una tassonomia multilingue dei campi scientifici, attraverso un processo semi-automatico basato su tecniche NLP. Cfr.: Il Vocabolario Scientifico Europeo.

Parole chiave

Parole chiave del progetto, indicate dal coordinatore del progetto. Da non confondere con la tassonomia EuroSciVoc (campo scientifico).

Programma(i)

Programmi di finanziamento pluriennali che definiscono le priorità dell’UE in materia di ricerca e innovazione.

HORIZON.1.2 - Marie Skłodowska-Curie Actions (MSCA) PROGRAMMA PRINCIPALE
Vedi tutti i progetti finanziati nell’ambito di questo programma

Argomento(i)

Gli inviti a presentare proposte sono suddivisi per argomenti. Un argomento definisce un’area o un tema specifico per il quale i candidati possono presentare proposte. La descrizione di un argomento comprende il suo ambito specifico e l’impatto previsto del progetto finanziato.

HORIZON-MSCA-2022-PF-01-01 - MSCA Postdoctoral Fellowships 2022
Vedi tutti i progetti finanziati su questa tematica

Meccanismo di finanziamento

Meccanismo di finanziamento (o «Tipo di azione») all’interno di un programma con caratteristiche comuni. Specifica: l’ambito di ciò che viene finanziato; il tasso di rimborso; i criteri di valutazione specifici per qualificarsi per il finanziamento; l’uso di forme semplificate di costi come gli importi forfettari.

HORIZON-TMA-MSCA-PF-EF - HORIZON TMA MSCA Postdoctoral Fellowships - European Fellowships

Vedi tutti i progetti finanziati nell’ambito di questo schema di finanziamento

Invito a presentare proposte

Procedura per invitare i candidati a presentare proposte di progetti, con l’obiettivo di ricevere finanziamenti dall’UE.

(si apre in una nuova finestra) HORIZON-MSCA-2022-PF-01

Vedi tutti i progetti finanziati nell’ambito del bando

Coordinatore

TECHNISCHE UNIVERSITAET DRESDEN

Contributo netto dell'UE

€ 173 847,36

Indirizzo

HELMHOLTZSTRASSE 10
01069 DRESDEN
Germania

Regione

Sachsen Dresden Dresden, Kreisfreie Stadt

Tipo di attività

Higher or Secondary Education Establishments

Collegamenti

Contatta l’organizzazione Sito web

Partecipazione a programmi di R&I dell'UE

Rete di collaborazione HORIZON

Costo totale

Nessun dato

Descrizione del progetto

Leggere il genoma umano grazie all’elaborazione del linguaggio naturale

Obiettivo

Campo scientifico (EuroSciVoc) CORDIS classifica i progetti con EuroSciVoc, una tassonomia multilingue dei campi scientifici, attraverso un processo semi-automatico basato su tecniche NLP. Cfr.: Il Vocabolario Scientifico Europeo.

Parole chiave Parole chiave del progetto, indicate dal coordinatore del progetto. Da non confondere con la tassonomia EuroSciVoc (campo scientifico).

Programma(i) Programmi di finanziamento pluriennali che definiscono le priorità dell’UE in materia di ricerca e innovazione.

Argomento(i) Gli inviti a presentare proposte sono suddivisi per argomenti. Un argomento definisce un’area o un tema specifico per il quale i candidati possono presentare proposte. La descrizione di un argomento comprende il suo ambito specifico e l’impatto previsto del progetto finanziato.

Invito a presentare proposte Procedura per invitare i candidati a presentare proposte di progetti, con l’obiettivo di ricevere finanziamenti dall’UE.