Lässt sich die Flut an genomischen Daten mit einem neuen Verfahren bändigen?
Mit Hochdurchsatz-Sequenzierung – einem Verfahren, das Millionen Sequenzierungsprozesse parallel durchführen kann – lässt sich das gesamte menschliche Genom in etwa einem Tag sequenzieren. Das spart nicht nur Kosten, sondern bringt uns der personalisierten Medizin wieder einen Schritt näher. Würde man das einzigartige molekulare und genetische Profil eines Menschen einsehen, könnte die Wissenschaft vielleicht voraussagen, mit welcher Wahrscheinlichkeit jemand eine bestimmte Erkrankung entwickeln wird. Ärztinnen und Ärzte könnten beim Entstehen einer Krankheit damit außerdem die beste Behandlung finden. Die Genomsequenzierung erzeugt allerdings riesige Datenmengen. „Wenn man das gesamte Genom einer einzelnen Person sequenziert, entstehen dabei 3 Milliarden Basenpaare. Soll dann ein Molekül sequenziert werden, um ein paar Varianten zu finden, muss man den Prozess mehrfach wiederholen, sodass man am Ende unter Umständen bei mehr als dem 30-Fachen dieses Werts herauskommt“, sagt Jennifer del Giudice, Geschäftsführerin von Enancio und Koordinatorin des EU-finanzierten Projekts ORIGAMI.
Wie werden die Daten speichert?
„Die Frage ist also: Wie speichern und übertragen wir diese wichtigen personenbezogenen Daten, die vielleicht 10 bis 15 Jahre aufbewahrt werden müssen? Krankheiten auf verschiedene Art und Weise zu behandeln, ist eine hervorragende Möglichkeit – aber was machen wir mit den Daten?“ Enancio hat einen Algorithmus namens Lena entwickelt. Er basiert auf einer Idee von Guillaume Rizk, dem technischen Leiter des Unternehmens, und soll im Sektor für genomische Daten eingesetzt werden. Mit dem Algorithmus lassen sich Daten ohne Verlust stark komprimieren. Lena hat eine nachweislich hohe Komprimierungsrate, komprimiert und extrahiert Daten schnell, ohne dass Informationen verloren gehen, und benötigt zur Ausführung weniger Rechenressourcen als andere Lösungen auf dem Markt. Durch ORIGAMI konnte das Enancio-Team die Leistung von Lena bei diesen Messwerten auf der aktuellsten Version der Illumina-Plattform testen, dem weltweit am meisten genutzten System für die Hochdurchsatz-Sequenzierung. Die Ergebnisse zeigten, dass Lena die Datengröße im Vergleich zum derzeit verwendeten generischen Komprimierungsprogramm um das Fünffache reduzieren kann. Daraus ergeben sich deutliche Einsparungen bei der Datenübertragungszeit und den Kosten für die Speicherung von Daten.
Fünfmal kleiner
„Es sind bereits Komprimierungsverfahren im Einsatz, die eine Datei mit 500 GB auf 100 GB reduzieren. Mit Lena lässt sich das Ganze um das Fünffache reduzieren, also auf 20 GB. Außerdem arbeitet der Algorithmus dreimal schneller als einfache Komprimierungsprozesse“, so del Giudice weiter. Dank der Marktstudie zu ORIGAMI konnte Enancio potenzielle Kundinnen und Kunden in Segmente unterteilen und die verschiedenen Anforderungen an die Datenkomprimierung untersuchen. Dabei fiel besonders auf, dass die Komprimierung vor allem transparent und ohne Unterbrechung des Arbeitsablaufs in bestehende Prozesse integriert werden sollte. Der Sequenzierungsbedarf wächst. Zwischen 2010 und 2015 ist der Anteil an genomischen Daten mit erstaunlicher Geschwindigkeit gewachsen und hat sich laut einer Studie in „PLOS Biology“ alle sieben Monate verdoppelt. Diese Wachstumsrate wird wahrscheinlich weiter zunehmen. Enancio hat festgestellt, dass viele Datennutzerinnen und -nutzer noch nicht den Punkt erreicht haben, an dem der Datenfluss unüberschaubar wird. Dazu del Giudice: „Die Menge an Daten ist noch nicht für alle ein Problem, das wird sich aber bald ändern.“
Schlüsselbegriffe
ORIGAMI, Datenkomprimierung, Komprimierung, genomische Daten, menschliches Genom, Sequenzierung, Hochdurchsatz-Sequenzierung, personalisierte Medizin