Description du projet
Une analyse innovante des données protéomiques pour l’identification complète des isoformes de protéines
Les isoformes de protéines, à savoir des versions différentes d’une protéine provenant d’un seul gène, contribuent à la diversité moléculaire de la vie. Toutefois, nous manquons de données complètes sur les isoformes de protéines au niveau des protéines, car jusqu’à 80 % de toutes les données protéomiques ne sont pas utilisées au cours de l’analyse. Pour relever ce défi, le projet ORIGIN, financé par le CER, propose une nouvelle approche qui repose sur la découverte des empreintes multidimensionnelles déterministes (ORIGIN) générées par les isoformes de protéines dans les mesures protéomiques. Le projet identifiera systématiquement les isoformes de protéines grâce à une nouvelle stratégie d’analyse des données protéomiques basée sur la spectrométrie de masse. Cette approche consiste à entraîner des réseaux neuronaux profonds afin de prédire les ORIGIN qui seront ensuite utilisées pour identifier et quantifier les isoformes de protéines.
Objectif
Did you know that ~80% of all proteomic data is not utilized? Proteins play a vital role in all biological processes and organisms. We believe that different versions of a single gene product – protein isoforms – shape the molecular diversity of life. However, comprehensive evidence on protein-level is not available. Chromatography-coupled tandem mass spectrometry (LC-MS/MS) is the de-facto standard for measuring proteomes, but it is not good at identifying isoforms because at least 80% of the recorded information is never used. I argue that isoforms leave a deterministic multi-dimensional fingerprint (ORIGINs) representing their physicochemical properties in each proteomic measurement. Therefore, the central aim of this project is to discover and quantify protein isoforms systematically by a novel MS-based proteomics data analysis strategy. By tapping into the wealth of data the proteomics community has already amassed, I will train deep neural networks that allow the prediction of ORIGINs. Second, I will implement an innovative data analysis strategy that utilizes ORIGINs to identify and quantify isoforms. Third, I will demonstrate that ORIGINs can be used to substantially broaden our understanding of the molecular diversity of life by showcasing its application on four emerging and challenging questions in proteome research of varying biological and technical complexity. This will allow me to address a fundamental open question in biology: to which extent and prevalence isoforms are actually translated and what functional roles they might be associated with. ORIGINs will improve the sensitivity, biological resolution and accuracy at which proteins and their isoforms can be identified and quantified. Beyond this, the concept of ORIGINs can be applied to and improve any proteomics experiments, and thus holds the potential to revolutionize MS-based proteomics as a technology and elevate the whole field of protein-based research.
Champ scientifique
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN.
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN.
- natural sciencescomputer and information sciencesdata science
- natural sciencesbiological sciencesbiochemistrybiomoleculesproteinsproteomics
- natural scienceschemical sciencesanalytical chemistrymass spectrometry
- natural sciencescomputer and information sciencesartificial intelligencecomputational intelligence
Programme(s)
- HORIZON.1.1 - European Research Council (ERC) Main Programme
Thème(s)
Régime de financement
HORIZON-ERC - HORIZON ERC GrantsInstitution d’accueil
80333 Muenchen
Allemagne