EARTHSERVER: podręczny dostęp do dużych zbiorów danych nt. Ziemi staje się rzeczywistością
Nauki o Ziemi, takie jak geologia, oceanografia i astronomia, generują ogromne ilości danych. Jednak pozbawieni odpowiednich narzędzi naukowcy albo toną w tym morzu informacji, albo trafiają one do archiwów, niemal niewykorzystane. Zamysł partnerów projektu EARTHSERVER polega na zaoferowaniu naukowcom podręcznego dostępu do dużych zbiorów danych nt. Ziemi, aby mogli z nich korzystać i operować olbrzymimi zbiorami danych za pomocą ledwie kilku kliknięć myszką. „Projekt jest wynikiem strategii push i pull” – stwierdził koordynator projektu, Peter Baumann, profesor nauk informatycznych na Uniwersytecie Jacobsa w Bremie, Niemcy. „Po stronie popytowej pojawiło się zapotrzebowanie na nowe koncepcje opanowania zalewającej nas fali danych. Po stronie podażowej dysponowaliśmy technologią kostki danych, która dobrze się sprawdza w tej dziedzinie”. Kostka danych to trój- (lub więcej) wymiarowa informatyka (tablica) wartości, powszechnie stosowana do opisu szeregów czasowych danych obrazowych. Kostki danych pomagają naukowcom w uzyskiwaniu dostępu do danych i ich wizualizowaniu Partnerzy EARTHSERVER opracowali zaawansowane kostki danych i specjalne portale internetowe, aby dać naukowcom możliwość ekstrakcji i wizualizacji danych z dziedziny nauk o Ziemi w formie kostek 3D, map 2D lub diagramów 1D. Brytyjska Służba Geologiczna wykorzystała na przykład technologię EARTHSERVER do przeprowadzenia odwiertów przez różne warstwy gleby w 3D. „Kostki danych ukrywają przed użytkownikiem zbędną złożoność danych” – zauważył profesor Baumann. „Jako użytkownik nie chcę oglądać miliona plików. Chcę zobaczyć kilka kostek danych”. Masowe dane w naukach o Ziemi to zazwyczaj dane z czujników, obrazy, symulacje i statystyki, często zawierające wymiar czasowy. Dane tworzą zwykle regularne bądź nieregularne wartości siatkowe ze współrzędnymi przestrzeni/czasu. W ramach EARTHSERVER udostępniono te tablice w formie kostek danych. Prócz łatwości obsługi, kostki danych umożliwiają także integrację danych z różnych dyscyplin, a naukowcy mogą łączyć dane pomiarowe z tymi wygenerowanymi za pomocą symulacji. Wykorzystywanie istniejących technologii Aby zapewnić sprawną obsługę dużych zbiorów danych nt. Ziemi, partnerzy EARTHSERVER musieli rozbudować istniejące technologie i normy. Na przykład język zapytań baz danych SQL jest bardziej ukierunkowany na operowanie danymi alfanumerycznymi. Aby stworzyć kostki danych, projekt oparł się na rasdamanie, nowym systemie zarządzania bazami danych, wyspecjalizowanym w wielowymiarowych danych siatkowych, zwanych rastrami lub tablicami. Rasdaman umożliwia elastyczną i szybką ekstrakcję danych z tablic dużych zbiorów danych nt. Ziemi o dowolnej wielkości. „Zasadniczo scaliliśmy język baz danych SQL z przetwarzaniem obrazów” – skonstatował profesor Baumann. „Staje się to teraz częścią normy ISO dotyczącej SQL”. Ponadto projekt wywarł silny wpływ na normy w zakresie dużych zbiorów danych nt. Ziemi stosowane przez Open Geospatial Consortium oraz INSPIRE, europejską infrastrukturę informacji przestrzennej. Naukowcy z projektu EARTHSERVER opracowali także technologię „paralelizacji semantycznej”, która dzieli proste zapytanie do bazy danych na wiele podzapytań. Są one przesyłane do innych serwerów baz danych w celu przetwarzania. Dzięki tej metodzie EARTHSERVER może rozdzielić pojedyncze zapytanie przychodzące na ponad 1 000 węzłów chmury i szybko udzielić odpowiedzi, wykorzystując setki terabajów w czasie poniżej jednej sekundy. Większy i lepszy: EARTHSERVER-2 W projekt EARTHSERVER-1, który był realizowany przez 36 miesięcy począwszy od września 2011 r. i otrzymał 4 mln EUR dofinansowania ze środków UE, zaangażowali się partnerzy z wielu krajów. Bazując na sukcesie pierwszego etapu projektu, partnerzy EARTHSAVER z powodzeniem ubiegali się o dofinansowanie przez Komisję Europejską kolejnego etapu: EARTHSERVER-2. Jego realizacja rozpoczęła się w maju 2015 r. i koncentrować się będzie na paradygmacie kostki danych i obsłudze jeszcze większych zbiorów danych. „Planujemy skupić się na fuzji danych z różnych dziedzin, aby odpowiadać na zapytania z użyciem petabajtów w ciągu sekundy” – powiedział profesor Baumann. „To oznaczałoby, że użytkownik mógłby wyświetlać dane na ekranie i interaktywnie nimi operować”. Partnerzy EARTHSERVER-2 pracują obecnie nad kolejnym, przełomowym przedsięwzięciem: wizualizacją 4D na licencji open source. Link do strony internetowej projektu Link do materiału wideo
Słowa kluczowe
Big Earth Data, chmura, rasdaman, bazy danych z tablicami, SQL, duże zbiory danych, UE, CORDIS, nauki o kriosferze, badawcze statki powietrzne, nauki o atmosferze, geologia, oceanografia, planetologia