Skip to main content
Oficjalna strona internetowa Unii EuropejskiejOficjalna strona internetowa UE
European Commission logo
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary
Zawartość zarchiwizowana w dniu 2024-06-18

CloudIX: Cloud-based Indexing and Query Processing

Article Category

Article available in the following languages:

Optymalizacja obliczeń w chmurze

Obliczenia w chmurze zrewolucjonizowały krajobraz świata technologii informatycznych (IT) dzięki tanim zasobom obliczeniowym. W ramach finansowanego ze środków UE opracowano narzędzia umożliwiające selektywne sprawdzenie tylko najbardziej przydatnych danych z zestawów danych chmury.

Użytkownicy komputerów coraz częściej stają w obliczu problemu konieczności poszukiwania sposobów przechowywania dużych ilości danych. Część tych potrzeb spełniają większe dysku twarde, ale istnieje coraz silniejsza tendencja do zapisywania danych w zewnętrznych systemach pamięci masowej. W ciągu zaledwie kilku lat wiele firm przeszło się ze sprzętu na tego rodzaju usługi chmury świadczone przez podmioty zewnętrzne. Pojawienie się infrastruktur chmury umożliwiło również analizę obszernych zestawów danych z równoległym przetwarzaniem zintegrowanym z nowym środowiskiem wirtualnym. W ramach projektu "Cloud-based indexing and query processing" (CLOUDIX) w celu przetwarzania i generowania dużych zestawów danych zastosowano proces MapReduce. Awangardowe prace badawcze wykonane w ramach dwuletniego projektu doprowadziły do znacznej poprawy wydajności procesu MapReduce. MapReduce to model programowania szeroko wykorzystywany w specjalnych obliczeniach, obejmujących duże ilości danych, takich jak dzienniki żądań sieci Web. Jest on stosowany do wyprowadzania różnych rodzajów danych, w tym odwróconych indeksów. Funkcja mapy jest stosowana dla każdego rekordu logicznego w celu obliczenia zestawu pośrednich wartości kluczy. Następnie w procesie redukcji identyfikowane są w celu połączenia wyprowadzonych danych wszystkie wartości wykorzystujące ten sam klucz. Badacze pracujący w ramach projektu CLOUDIX opracowali mechanizmy umożliwiające dostęp do podzestawu danych wejściowych zamiast skanowania wszystkich danych w celu uzyskania takiego samego wyniku. W szczególności zaawansowane algorytmy obsługują wcześniejsze zakończenie przetwarzania danych po uzyskaniu dostępu do liczby danych wystarczającej w celu uzyskania właściwego rezultatu. Wykonano decydujące pierwsze kroki w kierunku integracji wydajnych technik klasyfikacji, umożliwiających sortowanie wyników według ich ważności. W trakcie realizacji projektu CLOUDIX połączono różne podejścia w celu pokonania ograniczeń najważniejszych struktur równoległego przetwarzania zapytań w chmurze. Z drugiej strony korzyści obejmują skalowalność, odporność na błędy, równoważenie obciążenia oraz, co najważniejsze, prostotę. Oczekuje się, że wyniki projektu CLOUDIX opublikowane w recenzowanych pismach naukowych pomogą naukowcom i specjalistom zaoszczędzić czas pracy podczas analizy dużych zestawów danych.

Słowa kluczowe

Zapytanie, obliczenia w chmurze, dysk twardy, pamięć masowa, przetwarzanie równoległe, MapReduce, odwrócony indeks, algorytm

Znajdź inne artykuły w tej samej dziedzinie zastosowania