Algorithmen für die Analyse von Nukleinsäuresequenzen
Computer haben die Art und Weise verändert, wie in Bereichen wie etwa der industriellen Automatisierung, der Quantenmechanik und der Biomedizin komplexe Probleme angegangen werden. Die Bioinformatik sucht einen Weg, um genetische Informationen (Sequenzen von Nukleinsäuren oder Proteinen) mit dem Phänotyp (beobachtbare Merkmale, Symptome oder Störungen) zu verbinden. Das EU-geförderte Forschungsprojekt "Algorithms and tools for mining biological sequence data" (ALMOND) wurde ins Leben gerufen, um neue Techniken für mehrere wichtige Probleme in der computergestützten Molekularbiologie zu entwickeln. Die Methodik betont dynamische Programmierungsmethoden, die einfachere "Teilprobleme" eines schwierigen Problems identifizieren, also wiederkehrende Muster, die sie und die anschließende Lösung des Grundproblems miteinander verbinden. Die Forscher von ALMOND entwickelten neuartige effiziente Algorithmen für den Vergleich von Proteinsequenzen. Sie konzentrierten sich auf eine neue Variante von speziellen Ausrichtungspfad-beschränkten Sequenz-Alignments (ein sogenannter Sequenzabgleich mit regelmäßiger Expressionspfadeinschränkung (SA-REPC)). Die Forscher lieferten zwei neue Lösungen für dieses Sequenzanalyseproblem und beide stehen auf der Webseite der Gruppe(öffnet in neuem Fenster) zum Download zur Verfügung. Die Forscher entwickelten auch neue Algorithmen zum Vergleich von RNA-Sequenzen und -Strukturen für den Fall, dass die RNA-Sequenzen sich in einer Codierungsregion befinden, wie es üblicherweise bei Viren und Bakterien der Fall ist. Die Methoden ermöglichen die Vorhersage des wahrscheinlichsten gemeinsamen Vorfahren von zwei RNA, was die Einschränkung von üblichen Vergleichsalgorithmen beseitigt. Eine Reihe von Algorithmen befasste sich mit Fragen des Next-Generation-Sequencing (NGS). Die Zuordnung von kurzen Abschnitten zu einem bestehenden Bezugsgenom bildet den ersten Schritt von vielen NGS-Datenanalysen. New Mapping-Methoden übertreffen bestehenden Algorithmen und bietet wesentliche Verbesserungen. Eine neuartige Datenstruktur für einen Graphen, der von den meisten praktischen Genom-Montageverfahren für NGS-Daten verwendet wird, überwindet ein Haupthindernis für die Rechenverarbeitung der Daten. Sein 30 bis 40%-iger Anstieg des Speicherplatzes wird nun von der Software von Drittanbietern (Minia) ausgenutzt. ALMOND lieferte wichtige neue Algorithmen, mit denen die Einschränkungen aktueller Tools für Bioinformatik und Sequenzanalyse überwunden werden können. Die obigen und weitere Ergebnisse wurden vielfach publiziert und das Projekt hat neue Kooperationen zwischen Frankreich und Israel hervorgebracht. Von dem Projekt werden somit lang anhaltende Auswirkungen auf den sozioökonomisch wichtigen Bereich der Bioinformatik erwartet.
Schlüsselbegriffe
Nukleinsäuresequenzen, Bioinformatik, biologischen Daten, Molekularbiologie, Sequenzierung der nächsten Generation