Skip to main content

Article Category

Article available in the folowing languages:

Naukowcy zajmujący się analizą dużych zbiorów danych korzystają z korzyści chmury

W ramach wielu unijnych projektów badawczych powstają prawdziwe góry danych, jednak ich przetwarzanie i magazynowanie stanowi ogromne wyzwanie. Wszystko to może zmienić się dzięki rozwiązaniu opracowanemu przez pewien unijny zespół.

Gospodarka cyfrowa

Badania prowadzone przez naukowców zajmujących się wieloma dziedzinami nauki prowadzą do powstawania prawdziwie kolosalnych ilości danych. Za przykład niech posłużą tu laboratoria zajmujące się fizyką cząstek elementarnych i badaniami nad genomem, które każdego dnia generują prawie petabajt, czyli tysiąc terabajtów lub milion gigabajtów danych – gdybyśmy chcieli zmieścić je na płytach DVD, potrzebowalibyśmy ćwierć miliona tych krążków. Zbiór wszystkich 10 miliardów zdjęć opublikowanych na Facebooku zajmuje około 1,8 PB. Większość organizacji naukowo-badawczych nie jest w stanie magazynować tak ogromnych ilości danych przy pomocy własnych zasobów. Co gorsza, z czasem problem ten staje się coraz bardziej palący. Kolejną kłopotliwą kwestią związaną z danymi naukowymi jest to, że w większości przypadków nie są one publikowane ani dostępne publicznie. W 2020 roku problem częściowo rozwiąże europejska chmura dla otwartej nauki (EOSC), dzięki której wyniki i dane projektowe mają stać się publiczne i łatwe do udostępniania. Uczestnicy finansowanych przez Unię Europejską projektów takich jak EOSC-hub oraz EOSCpilot współpracowali nad rozwojem i utrzymaniem portalu EOSC. Z kolei wspierany z funduszy unijnych projekt HNSciCloud skupia wokół siebie konsorcjum dostawców komercyjnych usług chmurowych oraz przedstawicieli publicznych organizacji badawczych, którego celem jest rozwiązanie problemów, którym stawiają czoła naukowcy zajmujący się dziedzinami, które generują duże ilości danych. Wszystko to dzięki dostrzeżeniu widocznej luki na rynku oraz rozpatrywaniu ofert dostawców na budowę wydajnej europejskiej platformy chmurowej dla jednostek naukowych. Pomysł, na którym opiera się nowa platforma nie odbiega w dużym stopniu od znanych i typowych usług dostępnych w chmurze, różni się jedynie skalą i pewnymi zmianami koncepcji, które pozwalają na lepsze zaspokajanie potrzeb naukowców, w tym zgodność z założeniami EOSC.

Przetarg i projekt

Realizowane w ramach projektu prace rozpoczęły się od przetargu, w ramach którego zespół rozmawiał z dostawcami i użytkownikami w celu ustalenia listy wymagań. W wyniku tego procesu wyłoniono cztery konsorcja. W ramach etapu projektowania, wybrane konsorcja przygotowały i złożyły swoje projekty, spośród których komisja oceniająca HNSciCloud wybrała trzy, które przeszły do etapów prototypowania i wdrożeń pilotażowych, podczas których badacze skupieni wokół projektu testowali skalowalność i niezawodność platformy na podstawie realistycznych zestawów danych naukowych. Pierwszym spośród sprawdzonych przypadków użycia była światowa sieć obliczeniowa Wielkiego Zderzacza Hadronów, czyli Worldwide Large Hadron Collider Computing Grid – globalny projekt oparty na współpracy 170 centrów obliczeniowych zlokalizowanych w 42 krajach, które przetwarzają dane eksperymentalne z dziedziny fizyki cząstek elementarnych dostarczane przez CERN. Testy przeprowadzone w ramach projektu HNSciCloud obejmowały również szereg innych europejskich grup badawczych o dużym zapotrzebowaniu na moce obliczeniowe. Wśród nich można wymienić między innymi PanCancer – projekt, którego celem jest analizowanie ponad 2 000 genomów nowotworów dziennie, a także teleskop niskiej częstotliwości Square Kilometre Array.

Specjalistyczne usługi

„Etapy przygotowywania prototypów i wdrożeń pilotażowych jasno pokazały nam korzyści płynące z wykorzystania hybrydowego modelu chmury obliczeniowej i udowodniły, ze organizacje i jednostki mogą wykorzystać wyspecjalizowane komercyjne usługi dostępne w chmurze, by w ten sposób łatwo obejść ograniczenia swojej infrastruktury obliczeniowej”, twierdzi Bob Jones, dyrektor projektu. Jak można zobaczyć w filmie na temat projektu, „łączy on w sobie usługi dostępne w ramach infrastruktury-jako-usługi (IaaS), zapewniając w ten sposób kompleksowe wsparcie całych procesów badań naukowych”. Dostępne usługi obejmują zarówno obliczenia, jak i magazynowanie danych, przejrzysty dostęp do petabajtowych zbiorów danych, łączność sieciową, sfederowane zarządzanie tożsamościami oraz innowacyjne modele płatności. „W rezultacie naszych prac powstała hybrydowa platforma oparta na chmurze, której usługi są już dostępne dla ogółu społeczności naukowej. Nowa chmura pozwoli na skuteczne zaspokojenie wymagań na usługi TIK przedstawicieli wszystkich dziedzin nauki, niezależnie od ilości generowanych przez nie danych”, dodaje Jones. Chmura HNSciCloud jest zgodna ze wszystkimi normami i standardami europejskimi, a także z obowiązującymi przepisami w zakresie bezpieczeństwa i ochrony danych osobowych. Jest też w pełni kompatybilna z EOSC. Platforma jest oparta na oprogramowaniu otwartoźródłowym ze wsparciem komercyjnym, które nie wymaga licencji. Innowacyjne usługi chmurowe oferują naukowcom dostęp do nowych możliwości w zakresie TIK, co pozwoli na rozwój potencjału naukowego Europy.

Słowa kluczowe

HNSciCloud, chmura, dane, naukowe, petabajt, dziedziny nauki generujące duże ilości danych, platforma chmurowa, magazynowanie danych w chmurze, dane naukowe, sieć, infrastruktura-jako-usługa (IaaS), magazynowanie danych

Znajdź inne artykuły w tej samej dziedzinie zastosowania