Skip to main content
European Commission logo print header

Rapid development and distribution of statistical tools for high-throughput sequencing data

Article Category

Article available in the following languages:

Rechnergestützte Plattform arbeitet mit Genomdaten

Die neuesten Fortschritte in der DNA- und RNA-Sequenzierung haben auf dem Gebiet der Genomik einen Wandel ausgelöst, durch den es möglich werden wird, schnell und zu geringen Kosten große Datenmengen zu erzeugen. Nun haben EU-finanzierte Forscher die statistischen Instrumente entwickelt, die für die Analyse hunderter Gigabyte Daten erforderlich sind, die in jedem einzelnen Sequenzierungslauf erzeugt werden.

Industrielle Technologien icon Industrielle Technologien

Die seit der ersten menschlichen Genomsequenz bis hin zu der im Aufkommen begriffenen Ära der genomischen Medizin erzielten Fortschritte sind dank der Hochdurchsatzsequenzierung (High-Throughput Sequencing, HTS) möglich geworden. Diese Technologie gestattet die schnelle Sequenzierung großer DNA-Abschnitte und RNA-Basenpaare, die ganze Genome einnehmen. Um jedoch aussagekräftige biologische Signale zu extrahieren, erfordert die HTS leistungsfähige und rechnerisch effiziente statistische Instrumente. Das von der EU geförderte Projekt RADIANT (Rapid development and distribution of statistical tools for high-throughput sequencing data) wurde ins Leben gerufen, um die beliebtesten Datenanalysetools zu verbessern. Ultimatives Ziel war die Einbindung von Softwarepaketen, die von Forschenden in Frankreich, Deutschland, Italien, der Schweiz und dem Vereinigten Königreich entwickelt wurden, zu einem einzigen rechnergestützten Rahmenwerk. Unter diesen befindet sich die Python-Bibliothek HTSeq, die RNA-Sequenzierungsdaten zur Analyse der differentiellen Genexpression vorverarbeitet. Das Paket DESeq2 stellt Verfahren zur Erkennung differentiell exprimierter Gene unter Verwendung von verallgemeinerten linearen Modellen bereit. Andererseits setzt das BitSeqVB-Paket einen Bayes-Ansatz um, um die Konzentration der Boten-RNA-Transkripte zu erschließen. Die Forschungsarbeit im Rahmen des RADIANT-Projekts umfasste alle Aspekte der HTS-Datenanalyse von der Qualitätskontrolle bis zur Datenvisualisierung. Für die Zeitreihe der Genexpression wurde eine hierarchische Bayes-Modellierung vorgeschlagen, die sowohl systematisch als auch zufällig fehlende Daten unterstellen kann. Der RADIANT-Genom-Browser ist das erste für DNA-Methylierungsdaten entwickelte Visualisierungsinstrument. Die meisten der Werkzeuge sind nun in Bioconductor enthalten, das ein einheitliches Rahmenwerk für HTS-Datenanalyse, Dokumentation und Distribution darstellt. Die riesengroße Anzahl der auf Bioconductor verfügbaren Pakete erschwert es unerfahrenen Anwendern jedoch, spezielle Probleme zu lösen. Aus diesem Grund wurde eine "Anfängervignette" (Beginner's) erstellt, um eine einfache, aber umfassende Einführung in die RNA-Sequenzierungsdatenanalyse anzubieten. Dank ihrer Fähigkeit, unbegrenzte Einblicke in das Genom des Menschen zu verschaffen, haben die Sequenzierungstechnologien nahezu alle Zweige der biologischen und medizinischen Forschung durchdrungen. Mit den neu entwickelten Instrumenten von RADIANT wird die HTS-Datenanalyse fest als ein unverzichtbares Werkzeug verankert. Die vorgesehenen Anwendungen können die genomischen Studien einem Wandel unterziehen, der bislang kaum vorstellbare Informationen preisgeben kann.

Schlüsselbegriffe

RNA-Sequenzierung, Genomik, menschliches Genom, statistische Werkzeuge, Hochdurchsatzsequenzierung, Datenanalyse

Entdecken Sie Artikel in demselben Anwendungsbereich