Skip to main content
European Commission logo print header

New algorithms for inference and optimization from large-scale biological data

Article Category

Article available in the following languages:

Avances revolucionarios en el diseño y la ingeniería de proteínas

La aplicación de modelos estadísticos y algoritmos de aprendizaje automático puede ayudar al diseño y la ingeniería de nuevas proteínas con una funcionalidad mejorada.

Economía digital icon Economía digital
Salud icon Salud

El diseño de nuevas proteínas con funciones deseadas resulta complejo, pero tiene enormes repercusiones en los sectores farmacéutico, biomédico e industrial. Aunque en la actualidad las aplicaciones médicas constituyen el mercado más próspero de los productos de ingeniería proteínica, las enzimas sintéticas también se utilizan en la industria alimentaria para procesar alimentos. Además, las enzimas artificiales también tienen aplicaciones medioambientales en la desintoxicación de contaminantes o en el diseño de microorganismos modificados para eliminar contaminantes ambientales, como los plásticos.

Simplificar el diseño de nuevas proteínas

El diseño de nuevas proteínas con una mejor funcionalidad objetivo es una tarea difícil debido al amplio espacio entre secuencias y a las numerosas restricciones estructurales que deben satisfacerse. Por ejemplo, una proteína pequeña de 100 aminoácidos tiene unas 10^130 variantes posibles, más que los átomos del universo, pero la inmensa mayoría no son funcionales. Cada vez queda más claro que encontrar la mejor variante de secuencia para un fin determinado exige emplear sofisticadas soluciones experimentales junto con métodos informáticos avanzados. Para ello, el equipo del proyecto INFERNET desarrolló herramientas eficaces de inferencia y optimización de datos a gran escala. La investigación se llevó a cabo con el apoyo de las acciones Marie Skłodowska-Curie (MSCA, por sus siglas en inglés). «A fin de sacar conclusiones o realizar predicciones basadas en patrones y tendencias observados, construimos modelos estadísticos y algoritmos de aprendizaje automático que nos ayudaron a analizar los datos e identificar relaciones y correlaciones entre variables», explica Andrea Pagnani, beneficiario de una beca de investigación MSCA.

Modelización de las relaciones entre genotipo y fenotipo

El desarrollo de ensayos bioquímicos precisos de alto rendimiento con técnicas de secuenciación ha consolidado el cribado genético a gran escala como herramienta fundamental para estudiar la relación entre evolución, aptitud y otros conceptos biológicos que subyacen a la investigación experimental. Ello permite investigar la relación entre genotipo y fenotipo en condiciones de presión selectiva controlada por parte de factores externos. Dichos métodos se utilizan habitualmente para seleccionar moléculas con propiedades específicas. En INFERNET se ha desarrollado un método probabilístico basado en datos para modelizar la asociación entre genotipo y fenotipo a partir de experimentos. El método puede utilizarse como modelo generativo a fin de hallar nuevas variantes genéticas de gran aptitud e incorporarse a un proceso basado en el aprendizaje automático para la evolución dirigida.

Predicción de mutaciones durante la evolución

Una característica fundamental relacionada con la predicción de la distribución y frecuencia de las mutaciones genéticas es la capacidad de generar con eficacia secuencias artificiales con una determinada especificidad de la diana. Para ello, se han ideado diferentes estrategias informáticas y métodos de modelización específicos. «Desde nuestro punto de vista, generar secuencias artificiales significa poder crear eficazmente un conjunto de secuencias con características estadísticas indiferenciables del conjunto de entrenamiento», subraya Pagnani. En INFERNET se propuso una nueva estrategia informática para generar secuencias que son muy diferentes a las naturales. Este proceso informático debe ir acompañado de una validación experimental de la actividad biológica del conjunto de secuencias artificiales seleccionadas.

La metodología INFERNET para mejorar la funcionalidad de las proteínas

Una validación fundamental de la metodología INFERNET fue el diseño de la corismato mutasa artificial, una enzima esencial en la biosíntesis de los aminoácidos aromáticos. Los investigadores pudieron diseñar nuevas variantes naturales con una funcionalidad conservada o mejorada. Los modelos estadísticos basados en secuencias de INFERNET bastaron para especificar proteínas y proporcionar acceso a un enorme espectro de secuencias funcionales. Este resultado sentó las bases de un proceso general para el diseño de proteínas artificiales basado en la evolución. «Esos métodos estadísticos basados en la evolución pueden proporcionar una orientación fundamentada para la búsqueda de proteínas funcionales con una mejor funcionalidad objetivo», concluye Pagnani.

Palabras clave

INFERNET, proteínas, evolución, modelo estadístico, algoritmos de aprendizaje automático, ingeniería, diseño de proteínas, mutaciones genéticas, inferencia, corismato mutasa

Descubra otros artículos del mismo campo de aplicación