Skip to main content
European Commission logo print header

New algorithms for inference and optimization from large-scale biological data

Article Category

Article available in the following languages:

Des avancées déterminantes dans la conception et l’ingénierie des protéines

Le déploiement de modèles statistiques et d’algorithmes d’apprentissage automatique peut aider à la conception et à l’ingénierie de nouvelles protéines dotées de fonctionnalités améliorées.

Économie numérique icon Économie numérique
Santé icon Santé

La conception de nouvelles protéines dotées des fonctions souhaitées est complexe, mais ses répercussions sont énormes dans les secteurs pharmaceutique, biomédical et industriel. Bien que les applications médicales constituent aujourd’hui le marché le plus porteur pour les produits protéiques artificiels, les enzymes synthétiques sont également utilisées dans l’industrie alimentaire pour la transformation des aliments. Par ailleurs, les enzymes artificielles trouvent également des applications environnementales dans la détoxification des polluants ou dans la conception de micro-organismes modifiés destinés à éliminer de l’environnement les polluants tels que les plastiques.

Simplifier la conception de nouvelles protéines

La conception de nouvelles protéines dotées d’une meilleure fonctionnalité définie est une tâche difficile en raison du vaste espace de séquences et des nombreuses contraintes structurelles qui doivent être satisfaites. Par exemple, une petite protéine de 100 acides aminés a environ 10^130 variantes possibles, plus que le nombre total d’atomes dans l’univers, mais l’écrasante majorité d’entre elles ne sont pas fonctionnelles. Il devient de plus en plus évident que pour trouver la meilleure variante de séquence pour un objectif donné, il est indispensable de combiner des solutions expérimentales sophistiquées avec des approches informatiques avancées. À cette fin, le projet INFERNET a développé des outils d’inférence et d’optimisation efficaces pour les données à grande échelle. La recherche a été entreprise avec le soutien du programme MSCA Actions Marie Skłodowska-Curie. «Afin d’en tirer des conclusions ou de faire des prédictions basées sur les modèles et les tendances observés, nous avons construit des modèles statistiques et des algorithmes d’apprentissage automatique qui nous ont aidés à analyser les données et à identifier les relations et les corrélations entre les variables», explique Andrea Pagnani, chercheur boursier du programme MSCA.

Modélisation des relations génotype-phénotype

Grâce au développement d’essais biochimiques précis à haut débit et aux techniques de séquençage, le criblage génétique à grande échelle est devenu un outil fondamental pour étudier la relation entre l’évolution, la condition physique et d’autres concepts biologiques à la base de la recherche expérimentale. Cela permet d’étudier la relation entre le génotype et le phénotype sous la pression sélective contrôlée de facteurs externes. Ces méthodes sont couramment utilisées pour sélectionner des molécules aux propriétés spécifiques. INFERNET a développé une approche probabiliste basée sur les données pour modéliser l’association génotype-phénotype dérivée des expériences. Cette méthode peut servir de modèle génératif pour trouver de nouvelles variations génétiques caractérisées par une aptitude élevée, et peut être incorporée dans un processus d’évolution dirigée basé sur l’apprentissage automatique.

Prévision des mutations au cours de l’évolution

Une caractéristique essentielle liée à la prévision de la distribution et de la fréquence des mutations génétiques est la capacité de générer de manière efficace des séquences artificielles avec une spécificité de cible donnée. Diverses stratégies informatiques et approches de modélisation spécifiques ont été conçues à cette fin. «Générer des séquences artificielles, de notre point de vue, signifie être capable de générer efficacement un ensemble de séquences avec des caractéristiques statistiques indiscernables de l’ensemble d’apprentissage», souligne Andrea Pagnani. INFERNET a proposé une nouvelle stratégie de calcul permettant de générer des séquences qui sont très différentes des séquences naturelles. Ce pipeline de calcul doit être suivi d’une validation expérimentale de l’activité biologique de l’ensemble sélectionné de séquences artificielles.

La méthodologie INFERNET pour améliorer la fonctionnalité des protéines

La conception d’une chorismate mutase artificielle, une enzyme fondamentale dans la biosynthèse des acides aminés aromatiques, a constitué l’une des principales validations de la méthodologie INFERNET. Les chercheurs ont pu concevoir de nouvelles variantes naturelles dont la fonctionnalité est conservée ou améliorée. Les modèles statistiques INFERNET basés sur les séquences étaient suffisants pour spécifier les protéines et donner accès à un énorme espace de séquences fonctionnelles. Ce résultat a jeté les bases d’un processus général de conception de protéines artificielles basé sur l’évolution. «De telles approches statistiques basées sur l’évolution peuvent fournir un guide éclairé pour la recherche de protéines fonctionnelles dotées d’une fonctionnalité cible améliorée», conclut Andrea Pagnani.

Mots‑clés

INFERNET, protéines, évolution, modèles statistiques, algorithmes d’apprentissage automatique, ingénierie, conception de protéines, mutations génétiques, inférence, chorismate mutase

Découvrir d’autres articles du même domaine d’application