Description du projet
Le traitement automatique du langage naturel pour lire le génome humain
Les modèles non supervisés de traitement automatique du langage naturel (TALN) peuvent accomplir des progrès révolutionnaires en apprenant la structure du langage. Une compréhension plus approfondie des aspects linguistiques de notre génome demeure toutefois indispensable. Le projet GROVER, financé par l’UE, exploite les techniques de TALN pour analyser le génome humain, en le traitant comme une séquence de texte. Il emploie la tokenisation des paires d’octets pour créer un vocabulaire à partir des séquences d’ADN et examine les cartes d’attention pour discerner les relations de formation entre les différents «mots» au sein du génome. Le projet explore les règles du langage à l’aide de méthodes de linguistique de corpus. GROVER combine diverses techniques pour étudier la grammaire et la syntaxe du génome, accomplir des tâches de prédiction biologique avec des modèles finement ajustés et déployer des méthodes d’apprentissage interprétables. Il fait également appel à diverses stratégies d’atténuation des biais ethniques, déterminé à révolutionner l’analyse des données génomiques.
Objectif
Natural language processing (NLP) models trained on text without explicit supervision can have groundbreaking performance. They can develop a notion for grammar, syntax, and semantics, thus learning the structure of language. However, while we have defined the rules in our language, we only have a basic understanding about the linguistics of our genome. In this project, our goal is to treat the human genome as a sequence of text and apply NLP techniques to the human DNA sequence. We will establish byte-pair tokenization to generate vocabulary from DNA sequence and analyse attention maps to see the training relationship between different “words” of the genome. We will then further investigate the language rules using methods from corpus linguistics. Together, this will allow us to explore the grammar, syntax, and semantics hidden in the genome and capture their biological meaning. For proof-of-principle, we will perform several biological prediction tasks with fine-tuning models, built on top of the pretrained model. First, we will take popular genomic prediction tasks to benchmark our approach, such as predicting genome elements, transcription, and precision of genome editing. Then we will add some novel tasks around genome stability using available multi-omics data. Throughout the project we will implement techniques for interpretable learning and strategies to observe, control, and prevent ethnic biases in our approach.
We expect for large language models to change how we, as a scientific field, approach genomics data analysis and expect our models to establish how these techniques can be applied efficiently, transparently, and in a bias-reduced way. In addition to general understanding of genome biology, we plan to use our models in the future for technical improvements of data analysis, population genetics, and for translational uses with applications in cancer genomics and genome editing.
Champ scientifique (EuroSciVoc)
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: Le vocabulaire scientifique européen.
- lettres langues et littérature linguistique
- sciences naturelles sciences biologiques génétique ADN
- sciences médicales et de la santé médecine clinique oncologie
- sciences naturelles sciences biologiques génétique génome
Vous devez vous identifier ou vous inscrire pour utiliser cette fonction
Nous sommes désolés... Une erreur inattendue s’est produite.
Vous devez être authentifié. Votre session a peut-être expiré.
Merci pour votre retour d'information. Vous recevrez bientôt un courriel confirmant la soumission. Si vous avez choisi d'être informé de l'état de la déclaration, vous serez également contacté lorsque celui-ci évoluera.
Mots‑clés
Les mots-clés du projet tels qu’indiqués par le coordinateur du projet. À ne pas confondre avec la taxonomie EuroSciVoc (champ scientifique).
Les mots-clés du projet tels qu’indiqués par le coordinateur du projet. À ne pas confondre avec la taxonomie EuroSciVoc (champ scientifique).
Programme(s)
Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.
Programmes de financement pluriannuels qui définissent les priorités de l’UE en matière de recherche et d’innovation.
-
HORIZON.1.2 - Marie Skłodowska-Curie Actions (MSCA)
PROGRAMME PRINCIPAL
Voir tous les projets financés dans le cadre de ce programme
Thème(s)
Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.
Les appels à propositions sont divisés en thèmes. Un thème définit un sujet ou un domaine spécifique dans le cadre duquel les candidats peuvent soumettre des propositions. La description d’un thème comprend sa portée spécifique et l’impact attendu du projet financé.
Régime de financement
Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.
Régime de financement (ou «type d’action») à l’intérieur d’un programme présentant des caractéristiques communes. Le régime de financement précise le champ d’application de ce qui est financé, le taux de remboursement, les critères d’évaluation spécifiques pour bénéficier du financement et les formes simplifiées de couverture des coûts, telles que les montants forfaitaires.
HORIZON-TMA-MSCA-PF-EF - HORIZON TMA MSCA Postdoctoral Fellowships - European Fellowships
Voir tous les projets financés dans le cadre de ce programme de financement
Appel à propositions
Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.
Procédure par laquelle les candidats sont invités à soumettre des propositions de projet en vue de bénéficier d’un financement de l’UE.
(s’ouvre dans une nouvelle fenêtre) HORIZON-MSCA-2022-PF-01
Voir tous les projets financés au titre de cet appelCoordinateur
La contribution financière nette de l’UE est la somme d’argent que le participant reçoit, déduite de la contribution de l’UE versée à son tiers lié. Elle prend en compte la répartition de la contribution financière de l’UE entre les bénéficiaires directs du projet et d’autres types de participants, tels que les participants tiers.
01069 DRESDEN
Allemagne
Les coûts totaux encourus par l’organisation concernée pour participer au projet, y compris les coûts directs et indirects. Ce montant est un sous-ensemble du budget global du projet.