Lepsze technologie Big Data

Finansowani ze środków UE badacze stworzyli nowe koncepcje obliczeniowe i narzędzia ad hoc, które pomogą firmom sprostać coraz bardziej złożonym wymaganiom związanym ze zbiorami Big Data.

Gospodarka cyfrowa

Nie wszyscy wiedzą, że w typowej sieci ISP przesyłane są codziennie terabajty danych, codziennie z tych danych korzystają niemal dwa miliardy ludzi, a do 2020 roku liczba urządzeń podłączonych do Internetu może przekroczyć 50 miliardów. Te ogromne liczby wskazują, że istniejąca obecnie i tak już ogromna ilość danych będzie nadal rosnąć w zastraszającym tempie. Odpowiednie identyfikowanie i kategoryzowanie danych przesyłanych przez sieć zależnie od typu aplikacji jest dużym wyzwaniem, z którym zdecydowali się zmierzyć uczestnicy unijnego projektu ONTIC. Ich głównym celem było opracowanie nowych metod analizy i charakteryzowania dużych ilości danych transmitowanych przez dzisiejsze nowoczesne sieci obliczeniowe. „Precyzyjna identyfikacja i kategoryzacja ruchu sieciowego z podziałem na poszczególne aplikacje jest niezwykle istotną częścią wielu procesów z zakresu zarządzania i utrzymania sieci, powiązanych z jakością usług (QoS, Quality of Service), planowaniem wydajności i wykrywaniem ataków sieciowych” – mówi lider projektu ONTIC, Alberto Mozo. Badanie, wdrażanie i testowanie Według badaczy biorących udział w projekcie ONTIC proaktywne i dynamiczne zarządzanie jakością usług oznacza możliwość wczesnego wykrywania przypadków włamania do sieci i problemów z ograniczeniem zdolności przesyłowej sieci. Jednak do tego wymagane są dokładne i skalowalne mechanizmy pozwalające na bieżąco charakteryzować ewolucję wzorców ruchu sieciowego. Obecnie największą przeszkodą jest brak skalowalności i precyzji istniejących narzędzi. Z tego powodu zespół ONTIC zdecydował się stworzyć nową generację skalowalnych mechanizmów i technik opisu cech ruchu sieciowego online. „Naszym celem było zbadanie, wdrożenie i przetestowanie nowego rodzaju mechanizmów i technik do charakteryzowania strumieni danych przesyłanych online przez sieć oraz umożliwienie wykrywania anomalii w czasie rzeczywistym podczas przetwarzania dużej liczby pakietów na sekundę” – wyjaśnia Mozo. „Opracowane przez nas metody analizy danych są przeznaczone do identyfikowania powtarzających się prawidłowości występujących w modelach deskrypcyjnych”. Uczestnicy projektu stworzyli zestaw nowych mechanizmów i metod offline do pozyskiwania danych dotyczących ruchu sieciowego, a następnie dążyli do powiązania tych mechanizmów z metodami analizy zbiorów Big Data oraz wykorzystania modeli przetwarzania rozproszonego do dużych zbiorów danych zapisanych w chmurze. Jednocześnie zintegrowali oni mechanizmy i techniki online i offline w jeden autonomiczny system do monitorowania ruchu sieciowego z nadzorem lub bez niego. Skalowalne algorytmy w centrum uwagi Aby nie duplikować obecnych już rozwiązań, zespół przystosował do swoich celów istniejące architektury, a w szczególności architekturę Lambda do budowy aplikacji Big Data. „Zdecydowaliśmy się poświęcić część naszych wysiłków na stworzenie masowo skalowalnych algorytmów, które będzie można wykorzystać do klasyfikacji ruchu sieciowego” – uzupełnia Mozo. „Podsumowując, skoncentrowaliśmy się nie na architekturze, a na nowych algorytmach oraz ich zastosowaniu do wykrywania anomalii, proaktywnej kontroli obciążenia sieci oraz dynamicznego zarządzania QoS/QoE w prototypowych systemach”. Ponieważ jednym z założeń projektu ONTIC było zwiększenie świadomości firm technologicznych w zakresie bezpieczeństwa danych, uczestnicy opublikowali kilka wysoko ocenionych artykułów naukowych oraz stworzyli prototypowe systemy dowodzące słuszności uzyskanych przez nich wyników, rezygnując z rzeczywistych produktów i usług. Jednym z najważniejszych osiągnięć projektu jest udostępnienie kodu wszystkich algorytmów ONTIC w repozytorium GitLab na zasadzie licencji open source. Do czasu zakończenia projektu w styczniu 2017 roku publicznie dostępny zestaw danych zawierający anonimowe nagłówki pakietów, które mogą okazać się przydatne dla innych badaczy, zajmował już 0,5 petabajta. Badacze stworzyli też trzy prototypy potwierdzające możliwość wykorzystania równoległego uczenia maszynowego w telekomunikacji i złożyli trzy związane z tymi prototypami zgłoszenia wynalazku oraz jeden wniosek patentowy. Ponadto wiodące na świecie firmy technologiczne, w tym Ericsson, Satec i CNRS, wykazały zainteresowanie wprowadzeniem części rozwiązań projektu ONTIC na rynek i podjęły już prace w tym kierunku.