Skip to main content
European Commission logo
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary

Natural Language Processing to learn the language of the Human Genome

Descrizione del progetto

Leggere il genoma umano grazie all’elaborazione del linguaggio naturale

I modelli di elaborazione del linguaggio naturale (ELN) non supervisionati possono consentire di compiere progressi rivoluzionari grazie all’apprendimento della struttura del linguaggio; a tal fine, tuttavia, è necessaria una comprensione più approfondita degli aspetti linguistici del nostro genoma. Il progetto GROVER, finanziato dall’UE, sfrutta le tecniche di ELN per analizzare il genoma umano, trattandolo come una sequenza di testo. Il progetto si avvale della tokenizzazione delle coppie di byte per creare un vocabolario dalle sequenze di DNA, analizzando inoltre le mappe di attenzione per discernere le relazioni di formazione esistenti tra le diverse «parole» all’interno del genoma. Il progetto esplora le regole linguistiche ricorrendo all’impiego dei metodi relativi alla linguistica dei corpora. GROVER combina varie tecniche per studiare la grammatica e la sintassi del genoma svolgendo compiti di predizione biologica con modelli finemente sintonizzati e implementando metodi di apprendimento interpretabili. Inoltre, il progetto impiega strategie per mitigare i pregiudizi etnici, cercando di rivoluzionare l’analisi dei dati genomici.

Obiettivo

Natural language processing (NLP) models trained on text without explicit supervision can have groundbreaking performance. They can develop a notion for grammar, syntax, and semantics, thus learning the structure of language. However, while we have defined the rules in our language, we only have a basic understanding about the linguistics of our genome. In this project, our goal is to treat the human genome as a sequence of text and apply NLP techniques to the human DNA sequence. We will establish byte-pair tokenization to generate vocabulary from DNA sequence and analyse attention maps to see the training relationship between different “words” of the genome. We will then further investigate the language rules using methods from corpus linguistics. Together, this will allow us to explore the grammar, syntax, and semantics hidden in the genome and capture their biological meaning. For proof-of-principle, we will perform several biological prediction tasks with fine-tuning models, built on top of the pretrained model. First, we will take popular genomic prediction tasks to benchmark our approach, such as predicting genome elements, transcription, and precision of genome editing. Then we will add some novel tasks around genome stability using available multi-omics data. Throughout the project we will implement techniques for interpretable learning and strategies to observe, control, and prevent ethnic biases in our approach.
We expect for large language models to change how we, as a scientific field, approach genomics data analysis and expect our models to establish how these techniques can be applied efficiently, transparently, and in a bias-reduced way. In addition to general understanding of genome biology, we plan to use our models in the future for technical improvements of data analysis, population genetics, and for translational uses with applications in cancer genomics and genome editing.

Campo scientifico (EuroSciVoc)

CORDIS classifica i progetti con EuroSciVoc, una tassonomia multilingue dei campi scientifici, attraverso un processo semi-automatico basato su tecniche NLP.

È necessario effettuare l’accesso o registrarsi per utilizzare questa funzione

Coordinatore

TECHNISCHE UNIVERSITAET DRESDEN
Contribution nette de l'UE
€ 173 847,36
Indirizzo
HELMHOLTZSTRASSE 10
01069 Dresden
Germania

Mostra sulla mappa

Regione
Sachsen Dresden Dresden, Kreisfreie Stadt
Tipo di attività
Higher or Secondary Education Establishments
Collegamenti
Costo totale
Nessun dato