Nowy system przechowywania danych umożliwia lepsze wykorzystanie superkomputerów eksaskalowych

Superkomputery eksaskalowe przetwarzają do 1000 terabajtów (TB) danych dziennie, chociaż samo przeniesienie ich do procesora zajmuje wiele godzin. Innowacja powstała przy udziale unijnych funduszy eliminuje to wąskie gardło.

Gospodarka cyfrowa

Superkomputery to maszyny z wieloma (obecnie liczonymi w tysiącach) procesorami, które pracują równolegle, aby osiągnąć szybkość obliczeń nieporównywalnie lepszą niż w przypadku zwykłych komputerów. Najnowsza generacja takich urządzeń to superkomputery eksaskalowe. Są one w stanie wykonywać ponad miliard miliardów obliczeń na sekundę, co oznacza tysiąckrotny wzrost prędkości w porównaniu z najlepszymi komputerami sprzed zaledwie dziesięciu lat. Sprzęt taki jest wykorzystywany w dziedzinach badawczych wymagających najwyższej mocy obliczeniowej, jak na przykład w badaniach pogody/klimatu, genomice czy symulacjach ludzkiego mózgu. Obecne technologie zarządzania danymi już teraz mają trudności, by sprostać wymaganiom superkomputerów. Na przykład, konwencjonalny superkomputer o wysokiej wydajności może prowadzić symulację na 8000 procesorów, które codziennie generują 25 TB danych. Przetwarzanie surowych danych powoduje dwu- lub trzykrotne zwiększenie tej liczby. Niektóre aplikacje już muszą odczytywać setki terabajtów. Teraz za sprawą superkomputerów eksaskalowych powszechne staną się aplikacje produkujące petabajty (1000 TB) danych. Komputery zazwyczaj przechowują dane w jednym miejscu i przenoszą je gdzie indziej w celu ich przeanalizowania lub przetworzenia. Obecnie, nawet przy zastosowaniu najlepszych dostępnych sieci, przenoszenie terabajtów czy petabajtów danych może trwać wiele godzin. Jest to poważne wąskie gardło. Ponadto przenoszenie danych wymaga ogromnych ilości energii, sięgających setek megawatów. Wyeliminowanie wąskiego gardła W ramach finansowanego przez UE projektu SAGE(odnośnik otworzy się w nowym oknie) opracowano nowy system przechowywania danych, który jest w stanie sprostać wymaganiom obliczeń eksaskalowych. To innowacyjne rozwiązanie minimalizuje potrzebę przesyłania danych. „Zamiast przesyłania danych nasz system przenosi obliczenia do systemu pamięci masowej”, wyjaśnia kierownik projektu dr Sai Narasimhamurthy. Dane mogą być przetwarzane w miejscu przechowywania lub w jego pobliżu. Aplikacje superkomputerów mogą korzystać z modułów analitycznych zgodnie z zapotrzebowaniem. Inteligentny system pamięci masowej SAGE obejmuje także optymalizację przechowywania danych. Dane mogą być przechowywane na dowolnym z kilku poziomów: na konwencjonalnych dyskach twardych, dyskach SSD i w pamięci nieulotnej. Każdy z nich ma określone właściwości dotyczące wydajności. System SAGE przenosi dane na poziom o odpowiednich cechach wydajnościowych we właściwym momencie, co przekłada się na poprawę wydajności. Połączenie obu tych aspektów oznacza elastyczność i wszechstronność. Aplikacje posiadające różne złożone formaty danych mogą korzystać z różnych rodzajów narzędzi zarządzania danymi. Dzięki temu zespół SAGE mógł opracować potężny i rozszerzalny interfejs programowania aplikacji. Demonstracja prototypu „Nasz prototyp był »bardzo mały«”, dodaje dr Narasimhamurthy, „i mógł poradzić sobie z mniej niż pół petabajta danych. Nasze oprogramowanie nie jest jeszcze zoptymalizowane”. Dlatego trudno jest porównać prototyp z dużymi klastrami produkcyjnymi. Głównym celem zespołu było natomiast udowodnienie, że opracowane metody i techniki działają i dają łatwo przenieść się na większy sprzęt pamięci masowej. Reakcje środowiska naukowego były bardzo pozytywne. Po udanej demonstracji projekt będzie kontynuowany jako Sage2. Nowy projekt ma na celu rozbudowę prototypu SAGE i zbadanie nowych sposobów wykorzystania rozproszonej nieulotnej pamięci masowej. Uczeni zbadają także zastosowania superkomputerów eksaskalowych dotyczące sztucznej inteligencji i uczenia głębokiego. System SAGE usunie lub znacznie zredukuje wąskie gardła wpływające na działanie superkomputerów eksaskalowych, umożliwiając tym urządzeniom zbliżenie się do ich pełnej prędkości. Ponadto powinien przyczynić się do zmniejszenie zużycia energii około 100 razy w porównaniu z obecnie stosowanymi systemami. Prognozy mówią, że światowy rynek pamięci masowych do wysokowydajnych obliczeń osiągnie do 2021 r. wartość 6 mld USD. Rynek analityki big data i przechowywania danych w chmurze będzie jeszcze większy. Projekty SAGE będą ukierunkowane na europejskie komponenty dla obu tych rynków.