Des avancées déterminantes dans la conception et l’ingénierie des protéines

Le déploiement de modèles statistiques et d’algorithmes d’apprentissage automatique peut aider à la conception et à l’ingénierie de nouvelles protéines dotées de fonctionnalités améliorées.

Économie numérique

Santé

La conception de nouvelles protéines dotées des fonctions souhaitées est complexe, mais ses répercussions sont énormes dans les secteurs pharmaceutique, biomédical et industriel. Bien que les applications médicales constituent aujourd’hui le marché le plus porteur pour les produits protéiques artificiels, les enzymes synthétiques sont également utilisées dans l’industrie alimentaire pour la transformation des aliments. Par ailleurs, les enzymes artificielles trouvent également des applications environnementales dans la détoxification des polluants ou dans la conception de micro-organismes modifiés destinés à éliminer de l’environnement les polluants tels que les plastiques.

Simplifier la conception de nouvelles protéines

La conception de nouvelles protéines dotées d’une meilleure fonctionnalité définie est une tâche difficile en raison du vaste espace de séquences et des nombreuses contraintes structurelles qui doivent être satisfaites. Par exemple, une petite protéine de 100 acides aminés a environ 10^130 variantes possibles, plus que le nombre total d’atomes dans l’univers, mais l’écrasante majorité d’entre elles ne sont pas fonctionnelles. Il devient de plus en plus évident que pour trouver la meilleure variante de séquence pour un objectif donné, il est indispensable de combiner des solutions expérimentales sophistiquées avec des approches informatiques avancées. À cette fin, le projet INFERNET(s’ouvre dans une nouvelle fenêtre) a développé des outils d’inférence et d’optimisation efficaces pour les données à grande échelle. La recherche a été entreprise avec le soutien du programme MSCA Actions Marie Skłodowska-Curie(s’ouvre dans une nouvelle fenêtre). «Afin d’en tirer des conclusions ou de faire des prédictions basées sur les modèles et les tendances observés, nous avons construit des modèles statistiques et des algorithmes d’apprentissage automatique qui nous ont aidés à analyser les données et à identifier les relations et les corrélations entre les variables», explique Andrea Pagnani, chercheur boursier du programme MSCA.

Modélisation des relations génotype-phénotype

Grâce au développement d’essais biochimiques précis à haut débit et aux techniques de séquençage, le criblage génétique à grande échelle est devenu un outil fondamental pour étudier la relation entre l’évolution, la condition physique et d’autres concepts biologiques à la base de la recherche expérimentale. Cela permet d’étudier la relation entre le génotype et le phénotype sous la pression sélective contrôlée de facteurs externes. Ces méthodes sont couramment utilisées pour sélectionner des molécules aux propriétés spécifiques. INFERNET a développé une approche probabiliste basée sur les données(s’ouvre dans une nouvelle fenêtre) pour modéliser l’association génotype-phénotype dérivée des expériences. Cette méthode peut servir de modèle génératif pour trouver de nouvelles variations génétiques caractérisées par une aptitude élevée, et peut être incorporée dans un processus d’évolution dirigée basé sur l’apprentissage automatique.

Prévision des mutations au cours de l’évolution

Une caractéristique essentielle liée à la prévision de la distribution et de la fréquence des mutations génétiques est la capacité de générer de manière efficace des séquences artificielles avec une spécificité de cible donnée. Diverses stratégies informatiques et approches de modélisation spécifiques ont été conçues à cette fin. «Générer des séquences artificielles, de notre point de vue, signifie être capable de générer efficacement un ensemble de séquences avec des caractéristiques statistiques indiscernables de l’ensemble d’apprentissage», souligne Andrea Pagnani. INFERNET a proposé une nouvelle stratégie de calcul(s’ouvre dans une nouvelle fenêtre) permettant de générer des séquences qui sont très différentes des séquences naturelles. Ce pipeline de calcul doit être suivi d’une validation expérimentale de l’activité biologique de l’ensemble sélectionné de séquences artificielles.

La méthodologie INFERNET pour améliorer la fonctionnalité des protéines

La conception d’une chorismate mutase artificielle(s’ouvre dans une nouvelle fenêtre), une enzyme fondamentale dans la biosynthèse des acides aminés aromatiques, a constitué l’une des principales validations de la méthodologie INFERNET. Les chercheurs ont pu concevoir de nouvelles variantes naturelles dont la fonctionnalité est conservée ou améliorée. Les modèles statistiques INFERNET basés sur les séquences étaient suffisants pour spécifier les protéines et donner accès à un énorme espace de séquences fonctionnelles. Ce résultat a jeté les bases d’un processus général de conception de protéines artificielles basé sur l’évolution. «De telles approches statistiques basées sur l’évolution peuvent fournir un guide éclairé pour la recherche de protéines fonctionnelles dotées d’une fonctionnalité cible améliorée», conclut Andrea Pagnani.