Optymalizacja obliczeń w chmurze
Użytkownicy komputerów coraz częściej stają w obliczu problemu konieczności poszukiwania sposobów przechowywania dużych ilości danych. Część tych potrzeb spełniają większe dysku twarde, ale istnieje coraz silniejsza tendencja do zapisywania danych w zewnętrznych systemach pamięci masowej. W ciągu zaledwie kilku lat wiele firm przeszło się ze sprzętu na tego rodzaju usługi chmury świadczone przez podmioty zewnętrzne. Pojawienie się infrastruktur chmury umożliwiło również analizę obszernych zestawów danych z równoległym przetwarzaniem zintegrowanym z nowym środowiskiem wirtualnym. W ramach projektu "Cloud-based indexing and query processing" (CLOUDIX) w celu przetwarzania i generowania dużych zestawów danych zastosowano proces MapReduce. Awangardowe prace badawcze wykonane w ramach dwuletniego projektu doprowadziły do znacznej poprawy wydajności procesu MapReduce. MapReduce to model programowania szeroko wykorzystywany w specjalnych obliczeniach, obejmujących duże ilości danych, takich jak dzienniki żądań sieci Web. Jest on stosowany do wyprowadzania różnych rodzajów danych, w tym odwróconych indeksów. Funkcja mapy jest stosowana dla każdego rekordu logicznego w celu obliczenia zestawu pośrednich wartości kluczy. Następnie w procesie redukcji identyfikowane są w celu połączenia wyprowadzonych danych wszystkie wartości wykorzystujące ten sam klucz. Badacze pracujący w ramach projektu CLOUDIX opracowali mechanizmy umożliwiające dostęp do podzestawu danych wejściowych zamiast skanowania wszystkich danych w celu uzyskania takiego samego wyniku. W szczególności zaawansowane algorytmy obsługują wcześniejsze zakończenie przetwarzania danych po uzyskaniu dostępu do liczby danych wystarczającej w celu uzyskania właściwego rezultatu. Wykonano decydujące pierwsze kroki w kierunku integracji wydajnych technik klasyfikacji, umożliwiających sortowanie wyników według ich ważności. W trakcie realizacji projektu CLOUDIX połączono różne podejścia w celu pokonania ograniczeń najważniejszych struktur równoległego przetwarzania zapytań w chmurze. Z drugiej strony korzyści obejmują skalowalność, odporność na błędy, równoważenie obciążenia oraz, co najważniejsze, prostotę. Oczekuje się, że wyniki projektu CLOUDIX opublikowane w recenzowanych pismach naukowych pomogą naukowcom i specjalistom zaoszczędzić czas pracy podczas analizy dużych zestawów danych.
Słowa kluczowe
Zapytanie, obliczenia w chmurze, dysk twardy, pamięć masowa, przetwarzanie równoległe, MapReduce, odwrócony indeks, algorytm