Skip to main content

Serverless Data Analytics Platform

Article Category

Article available in the folowing languages:

Demokratisierung von Big Data durch eine neue Plattform für das Cloud-Computing

Die Entwicklung von Programmiercode für cloudbasierte analytische Big-Data-Anwendungen ist kompliziert und kostspielig, daher hat CloudButton eine serverlose Plattform mit weitreichender Funktionalität erschaffen, die Rechenressourcen je nach Bedarf zuweist.

Digitale Wirtschaft

Serverlose Datenanalyseplattformen ermöglichen ihrer Nutzerschaft, Big Data zu verarbeiten, ohne über Fachwissen zur Cloud-Programmierung verfügen zu müssen. Sie sind skalierbar und bieten Zugang zu gewaltigen Rechen- und Speicherungsressourcen für die parallele Verarbeitung von Terabytes an Daten, im Gegensatz zur begrenzten Kapazität von Hochleistungsrechen-Clustern (high-performance computing, HPC). Außerdem zahlen die Nutzenden nur für die verwendeten Ressourcen, die pro Millisekunde abgerechnet werden, ohne dass IT-Unterstützung von Expertinnen und Experten nötig wird, wie es bei HPC-Clustern der Fall ist. „Die serverlose Technologie kann im Grunde die Analyse von Big Data demokratisieren; jeder und jede mit einem Laptop und einer WLAN-Verbindung kann so die fast unbegrenzten Rechenressourcen nutzen“, erklärt der Projektkoordinator von CloudButton Pedro Garcia Lopez von der Universität Rovira i Virgili (URV), die als Projektträger fungiert. CloudButton erschuf Lithops, eine Plattform, die bei verschiedenen Cloud-Anbietern auf Grundlagen desselben unveränderten Programmiercodes läuft, sodass die Anwenderinnen und Anwender nicht an einen einzigen Anbieter gebunden sind. Das Partnerunternehmen des Projekts IBM vermarktet Lithops bereits an seine Kundschaft und Lithops wird auch in zwei Spin-offs des Projekts im Bereich der Biotechnologie zum Einsatz kommen. Bereits in der Vorbereitungsphase befindet sich SpaceM des Europäischen Laboratoriums für Molekularbiologie zur Wirkstoffentdeckung und die DATOMA Cloud der URV (geplant für 2023), die cloudbasierte Rechendienstleistungen für Omik-Daten anbieten wird.

Ein Instrument für Testzeiten

Das Team von CloudButton wies das Potenzial von Lithops mithilfe von gewaltigen Datenmengen aus drei Quellen nach: genomische, metabolomische und georäumliche Daten. Die genomischen Daten umfassten komprimierten Text, während es sich bei den metabolomischen (die Erforschung von Molekülen) und georäumlichen Daten um große Bilder handelte. Für die metabolomische Arbeit am EMBL wurde eine cloudbasierte Plattform namens METASPACE (eines früheren EU-Projekts) umgesiedelt, damit sie parallel zu Lithops laufen konnte. „Wir konnten viele Terabyte an metabolomischen Daten in einer Produktionsumgebung effizient verarbeiten, auf die weltweit hundertfach zugegriffen wurde, darunter von Angestellten von Organisationen wie AstraZeneca“, fügt Lopez hinzu. In Zusammenarbeit mit einer Partnereinrichtung des Projekts, dem James-Hutton-Institut, konnte das Team unter Beweis stellen, dass Lithops die Verarbeitungsleistung für genomische Daten bei reduzierten Kosten verbessern konnte, verglichen mit der Durchführung der gleichen Analyse mithilfe eines HPC-Clusters. „Wir wendeten ein Analyseverfahren namens Variant Calling auf einen umfangreichen Datensatz sowohl mithilfe von Lithops als auch der kommerziellen Option Illumina an. Wir konnten mit unseren drei Minuten eine erheblich bessere Leistung als Illuminas 30 Minuten erzielen“, so Lopez. Auch bei der Verarbeitung georäumlicher Daten konnte Lithops im Vergleich zum gleichen Code in einer HPC-Umgebung dieselben Vorteile bieten. Lithops unterstützt eine breite Palette an genomischen, metabolomischen und georäumlichen Datentypen. Außerdem verfügt es über ein MapReduce-Framework, das für die parallele Verarbeitung von Big Data optimiert ist. Um das System einem breiteren Publikum zugänglich zu machen, entwickelte das Team das CloudButton-Toolkit, eine Sammlung von Ressourcen mit offenem Quellcode, die Anwenderinnen und Anwender dabei unterstützt, ihre Anwendungen in verschiedenen Programmiersprachen wie Python, Java oder C++ in die Cloud zu migrieren.

Sofort einsatzbereites Wachstum

Cloud-Computing ist ein Schlüsselelement der Digitalisierungsstrategie der EU und wird sich auf viele Alltagsanwendungen auswirken. Der Ansatz von CloudButton könnte diesen Übergang kosteneffizient gestalten. „KMU oder Forschende, die sich keine eigenen Cluster oder Cloud-Fachleute leisten können, die den Code ausführen, können so günstig von Tausenden parallel rechnenden Computern Gebrauch machen, um gigabyteweise Daten zu analysieren. Unser System verbirgt im Grunde das verteilte Netzwerk hinter den Kulissen, sodass es für die Anwendenden sofort einsatzbereit ist“, merkt Lopez abschließend an. Die Vorteile werden wahrscheinlich besonders in Bereichen wie der Biotechnologie und der landwirtschaftlichen Technologie bemerkbar sein. Das Toolkit von CloudButton könnte Biotechnologie-Unternehmen die Entwicklung neuer Arzneimittel erleichtern, während Start-ups in der landwirtschaftlichen Technologie von georäumlichen Analysen mithilfe von Satellitendaten von Sentinel 2 profitieren könnten, zum Beispiel bei der Wasserbewirtschaftung. Lithops wird außerdem in drei bevorstehenden EU-finanzierten Projekten als Schlüsseltechnologie fungieren: NEARDATA (extreme Daten-Omik), CloudSkin (Edge-Computing) und EXTRACT (extreme georäumliche Daten), was seine Weiterentwicklung sicherstellt.

Schlüsselbegriffe

CloudButton, Big Data, Cloud-Computing, Genomik, georäumlich, Metabolomik, Code, Programmieren, HPC

Entdecken Sie Artikel in demselben Anwendungsbereich

Wissenschaftliche Fortschritte
Digitale Wirtschaft
Verkehr und Mobilität
Klimawandel und Umwelt

22 April 2022

Wissenschaftliche Fortschritte
Digitale Wirtschaft

17 Oktober 2022