Demokratyzacja dużych zbiorów danych dzięki nowej platformie dla chmury obliczeniowej
Bezserwerowe platformy do analizy danych umożliwiają użytkownikom przetwarzanie dużych zbiorów danych bez konieczności posiadania wiedzy i doświadczenia w zakresie tworzenia oprogramowania działającego w chmurze. Są skalowalne, a dzięki udostępnianiu ogromnych mocy obliczeniowych oraz pojemności pamięci umożliwiają równoległe przetwarzanie terabajtów danych, czym wyróżniają się na tle klastrów obliczeń wielkiej skali (HPC). Co więcej, korzystanie z nich pozwala użytkownikom na płacenie wyłącznie za używane zasoby rozliczane w milisekundach. Dużą zaletą jest także fakt, że użytkownicy nie muszą korzystać w tym celu ze wsparcia ekspertów, jak to ma miejsce w przypadku korzystania z klastrów HPC. „Technologie bezserwerowe mogą przyczynić się do demokratyzacji dziedziny analityki dużych zbiorów danych – każda osoba posiadająca laptopa oraz połączenie z siecią może skorzystać z niemal nieskończonych zasobów obliczeniowych”, wyjaśnia koordynator projektu CloudButton Pedro Garcia Lopez, pracownik Uniwersytetu Rovira i Virgili (URV), który pełni rolę gospodarza projektu. W ramach projektu CloudButton powstało rozwiązanie Lithops – platforma wykorzystująca ten sam kod w systemach różnych dostawców rozwiązań chmurowych, dzięki czemu użytkownicy nie są przywiązani do jednego dostawcy. Jeden z partnerów projektu, spółka IBM, już teraz wprowadza rozwiązanie Lithops do sprzedaży. Co więcej, nowy produkt zostanie wykorzystany przez dwie spółki typu spin-off zajmujące się projektami biotechnologicznymi. Jeden z nich – SpaceM, który już teraz znajduje się w fazie inkubacji, to projekt poświęcony odkrywaniu nowych leków realizowany przez Europejskie Laboratorium Biologii Molekularnej (EMBL). Z kolei Uniwersytet Rovira i Virgili zrealizuje projekt DATOMA Cloud, rozpoczynający się w 2023 roku, który będzie oferował usługi obliczeniowe w chmurze dotyczące danych omicznych.
Narzędzie na trudne czasy
Zespół projektu CloudButton zademonstrował potencjał rozwiązania Lithops w zakresie analizy dużych zbiorów danych pochodzących z trzech źródeł – genomicznych, metabolomicznych i geoprzestrzennych. Dane genomiczne zawierały skompresowany tekst, natomiast dane metabolomiczne związane z badaniem cząsteczek oraz dane geoprzestrzenne zawierały duże obrazy. W celu obróbki danych metabolomicznych w EMBL badacze przenieśli opartą na chmurze platformę o nazwie METASPACE (opracowaną w ramach jednego z poprzednich projektów finansowanych przez UE) i dostosowali ją w celu umożliwienia jej wykorzystywania rozwiązania Lithops. „W ramach naszych prac udało nam się wykazać, że rozwiązanie Lithops pozwala na skuteczne przetwarzanie terabajtów danych metabolomicznych w środowisku produkcyjnym, do którego dostęp mają setki użytkowników na całym świecie, w tym pracownicy takich organizacji jak AstraZeneca”, dodaje Lopez. W ramach współpracy z partnerem projektu – James Hutton Institute – zespół wykazał, że rozwiązanie Lithops może poprawić wydajność przetwarzania danych genomicznych oraz obniżyć koszty samego przetwarzania, zwłaszcza w porównaniu z przeprowadzaniem tych samych analiz przy pomocy klastrów HPC. „W ramach testów rozwiązania wykorzystaliśmy technikę nazwaną Variant Calling w połączeniu z dużym zestawem danych. Analizy przeprowadziliśmy przy pomocy oprogramowania Lithops oraz Illumina, czyli opcji dostępnej obecnie na rynku. Nasze rozwiązanie okazało się znacznie bardziej wydajne – analiza zakończyła się po 3 minutach, natomiast konkurencyjnemu rozwiązaniu zajęła aż 30 minut”, mówi Lopez. Te same zalety rozwiązania Lithops zostały zaobserwowane podczas przetwarzania danych geoprzestrzennych, zwłaszcza w porównaniu z uruchamianiem tego samego kodu w klastrach HPC. Lithops oferuje wsparcie dla szerokiego zakresu typów danych genomicznych, metabolomicznych i geoprzestrzennych. Oferuje również ramy MapReduce, które pozwalają na równoległe przetwarzanie dużych zbiorów danych. Aby zapewnić szerszą dostępność nowego systemu, zespół opracował zestaw otwartoźródłowych narzędzi CloudButton, który ma pomóc użytkownikom w migracji ich aplikacji w różnych językach programowania, takich jak Python, Java czy C++, do środowisk chmurowych.
Szybki rozwój
Chmury obliczeniowe stanowią jeden z kluczowych elementów strategii cyfryzacji UE i przyczynią się do realizacji wielu rozwiązań, które będą miały wpływ na nasze życie codzienne. Podejście wykorzystane w ramach projektu CloudButton może pomóc w przyspieszeniu tej transformacji bez podnoszenia jej kosztów. „Firmy z sektora małych i średnich przedsiębiorstw oraz jednostki naukowe, których nie stać na własne klastry lub zatrudnianie ekspertów zajmujących się środowiskami chmurowymi do opracowywania kodu, mogą łatwo wykorzystać moc obliczeniową tysięcy działających równolegle komputerów analizujących gigabajty danych. Dzięki temu, że nasz system skutecznie ukrywa sieć rozproszoną, na której się opiera, użytkownicy mogą po prostu włączyć rozwiązanie i zacząć z niego korzystać”, podsumowuje Lopez. Największe korzyści nowego rozwiązania z pewnością zobaczą użytkownicy w takich sektorach jak biotechnologia i agrotechnologia. Zestaw narzędzi CloudButton może pomóc firmom biotechnologicznym w projektowaniu nowych leków, z kolei start-upy z branży agrotechnologii mogą skorzystać z analizy geoprzestrzennej z danych satelitarnych Sentinel 2, na przykład w celu usprawniania gospodarki wodnej. Narzędzie Lithops stanie się również jedną z kluczowych technologii wykorzystywanych w trzech planowanych projektach finansowanych przez UE: NEARDATA (dotyczącym danych omicznych), CloudSkin (poświęconym obliczeniom brzegowym) i EXTRACT (skupiającym się na danych geoprzestrzennych), wspierając ich realizację.
Słowa kluczowe
CloudButton, duże zbiory danych, obliczenia w chmurze, genomika, geoprzestrzenne, metabolomika, kod, programowanie, HPC