Skip to main content
European Commission logo print header

New algorithms for inference and optimization from large-scale biological data

Article Category

Article available in the following languages:

Bahnbrechende Fortschritte bei Proteindesign und -technik

Die Anwendung von statistischen Modellen und Algorithmen des maschinellen Lernens kann das Design und die Entwicklung neuer Proteine mit verbesserter Funktionalität unterstützen.

Digitale Wirtschaft icon Digitale Wirtschaft
Gesundheit icon Gesundheit

Das Design neuartiger Proteine mit gewünschten Funktionen ist komplex, hat aber enorme Auswirkungen auf den pharmazeutischen, biomedizinischen und industriellen Sektor. Obwohl medizinische Anwendungen heute den größten Markt für technisch hergestellte Proteinprodukte darstellen, werden synthetische Enzyme auch in der Lebensmittelindustrie zur Lebensmittelverarbeitung eingesetzt. Außerdem finden künstliche Enzyme in der Umwelt bei der Entgiftung von Schadstoffen oder bei der Entwicklung modifizierter Mikroorganismen zur Beseitigung von Umweltschadstoffen wie Kunststoffen Anwendung.

Design neuer Proteine vereinfachen

Die Ausstattung neuer Proteine mit verbesserter Zielfunktion stellt eine schwierige Aufgabe dar, da der Sequenzraum sehr groß ist und viele strukturelle Zwänge erfüllt werden müssen. Für ein kleines Protein mit 100 Aminosäuren sind beispielsweise etwa 10^130 Varianten möglich, mehr als es Atome im Universum gibt, aber die überwältigende Mehrheit ist nicht funktionsfähig. Es wird immer deutlicher, dass man, um die beste Sequenzvariante für einen bestimmten Zweck zu finden, ausgeklügelte experimentelle Lösungen in Kombination mit fortschrittlichen Berechnungsansätzen einsetzen muss. Dafür wurden im Projekt INFERNET wirksame Instrumente für die Inferenz und Optimierung großer Datenmengen erstellt. Die Forschungsarbeit wurde im Rahmen der Marie-Skłodowska-Curie-Maßnahmen unterstützt. „Um auf der Grundlage der beobachteten Muster und Trends Schlussfolgerungen zu ziehen oder Vorhersagen zu treffen, haben wir statistische Modelle und Algorithmen für maschinelles Lernen entworfen, die uns bei der Analyse der Daten und der Bestimmung von Beziehungen und Korrelationen zwischen den Variablen halfen“, erklärt Marie-Skłodowska-Curie-Stipendiat Andrea Pagnani.

Genotyp-Phänotyp-Verbindungen modellieren

Die Erstellung präziser biochemischer Assays mit hohem Durchsatz und mithilfe von Sequenzierungsverfahren hat das genetische Screening in großem Maßstab zu einem grundlegenden Instrument für die Untersuchung der Verbindungen zwischen Evolution, Fitness und anderen biologischen Konzepten gemacht, die der experimentellen Forschung zugrunde liegen. So kann die Beziehung zwischen Genotyp und Phänotyp unter kontrolliertem Selektionsdruck durch externe Faktoren erforscht werden. Solche Methoden werden routinemäßig eingesetzt, um Moleküle mit bestimmten Eigenschaften auszuwählen. INFERNET erarbeitete einen datengestützten probabilistischen Ansatz zur Modellierung der aus Experimenten abgeleiteten Genotyp-Phänotyp-Assoziation. Diese Methode kann als generatives Modell eingesetzt werden, um neue genetische Variationen mit hoher Fitness zu finden, und sie kann in einen auf maschinellem Lernen basierenden Prozess der gerichteten Evolution integriert werden.

Mutationen während der Evolution vorhersagen

Ein wesentliches Merkmal bei der Vorhersage der Verteilung und Häufigkeit von Genmutationen ist die Fähigkeit, künstliche Sequenzen mit einer bestimmten Zielspezifität effizient zu erzeugen. Zu diesem Zweck wurden verschiedene Berechnungsstrategien und spezifische Modellierungsansätze erarbeitet. „Die Erzeugung künstlicher Sequenzen bedeutet für uns, dass wir in der Lage sind, wirksam einige Sequenzen zu erzeugen, die sich in ihren statistischen Eigenschaften nicht von der Trainingsmenge unterscheiden“, erläutert Pagnani. INFERNET hat eine neue Berechnungsstrategie vorgeschlagen, um Sequenzen zu erzeugen, die sich von den natürlichen Sequenzen stark unterscheiden. Auf diese rechnerische Pipeline muss eine experimentelle Validierung der biologischen Aktivität der ausgewählten künstlichen Sequenzen folgen.

INFERNET-Methodik zur Verbesserung der Proteinfunktionalität

Eine wichtige Validierung der INFERNET-Methodik war das Design einer künstlichen Chorismat-Mutase, einem grundlegenden Enzym in der Biosynthese von aromatischen Aminosäuren. Die Forschenden waren in der Lage, neue naturähnliche Varianten mit gleichbleibender oder verbesserter Funktionalität zu entwerfen. Die sequenzbasierten statistischen Modelle von INFERNET reichten aus, um Proteine zu spezifizieren, und gestatteten den Zugang zu einem enormen Raum funktioneller Sequenzen. Dieses Ergebnis bildete die Grundlage für ein allgemeines Verfahren zum evolutionsbasierten Design künstlicher Proteine. „Solche evolutionsbasierten statistischen Ansätze können einen fundierten Leitfaden für die Suche nach funktionalen Proteinen mit einer verbesserten Zielfunktionalität bereitstellen“, schließt Pagnani.

Schlüsselbegriffe

INFERNET, Proteine, Evolution, statistische Modelle, Algorithmen für maschinelles Lernen, Technik, Proteindesign, genetische Mutationen, Inferenz, Chorismat-Mutase

Entdecken Sie Artikel in demselben Anwendungsbereich