Wspólnotowy Serwis Informacyjny Badan i Rozwoju - CORDIS

FP7

LeanBigData Wynik w skrócie

Project ID: 619606
Źródło dofinansowania: FP7-ICT
Kraj: Hiszpania

Platforma łącząca funkcje operacyjnej i analitycznej bazy danych

W ramach finansowanego ze środków UE projektu LEANBIGDATA opracowano działającą w czasie rzeczywistym platformę big data, która może aż o połowę zmniejszyć koszty analizy danych i umożliwić jej prowadzenie w czasie rzeczywistym.
Platforma łącząca funkcje operacyjnej i analitycznej bazy danych
Celem realizowanego w Hiszpanii projektu jest umożliwienie firmom bardziej efektywnego korzystania ze zbiorów big data przy wykorzystaniu mniejszej ilości zasobów. Uczestnicy inicjatywy LEANBIGDATA stworzyli wysoce wydajną i skalowalną platformę służącą do zarządzania zbiorami big data.

Duże firmy i organizacje przetwarzają coraz większe ilości danych. Jednak stosowane w tym celu metody często cechują się niską wydajnością i wymagają dużych nakładów finansowych. W obrębie przedsiębiorstw najczęściej używa się dwóch baz danych: jedną przechowującą dane operacyjne i jedną pełniącą funkcję hurtowni danych. W celu analizy zbiór danych musi zostać skopiowany z pierwszej bazy do drugiej, a ponieważ dane szybko stają się nieaktualne, konieczne jest regularne powtarzanie tej czynności – zazwyczaj codziennie.

Zarówno stworzenie, jak i utrzymanie wspomnianego procesu, który znany jest pod nazwą ETL (Extraction-Transform-Load), generuje wysokie koszty. „Odpowiada on za 75% do 80% kosztów analizy danych” – twierdzi Ricardo Jiménez, koordynator techniczny projektu LEANBIGDATA oraz dyrektor generalny i współzałożyciel spółki spin-off o nazwie LeanXcale, której zadaniem jest komercjalizacja najważniejszych osiągnięć projektu. Co więcej, analiza zbiorów big data jest prowadzona w trybie wsadowym, a nie w czasie rzeczywistym, co uniemożliwia użytkownikom szybkie reagowanie na bieżące wydarzenia.

Dwie w cenie jednej

Zespół projektu LEANBIGDATA zaprojektował rozwiązanie strukturalne, które jest w stanie pełnić obie funkcje – operacyjną i analityczną – znacznie zwiększając tym samym wydajność procesu. Opracowano transakcyjny system zarządzania, który skalowany jest liniowo do bardzo dużych wartości, co pozwala operacyjnemu sektorowi bazy udźwignąć dużą ilość danych analitycznych.

Powstały trzy nowe systemy zarządzania. Pierwszym jest magazyn danych klucz-wartość, rodzaj technologii NoSQL wykorzystywany w celu przechowywania danych bazy łączonej. Drugi z nich, system złożonego przetwarzania zdarzeń, pozwala użytkownikom przesyłać strumienie danych ze zdarzeń w czasie rzeczywistym. Z kolei trzeci system to rozproszony silnik zapytań SQL, który jest w stanie korzystać z wielu komputerów do obsługi pojedynczego zapytania. „Oznacza to, że możemy udzielać odpowiedzi w takim czasie oczekiwania, na jaki przygotowany jest typowy użytkownik online” – uważa dr Jiménez.

Zespół przetestował opracowaną technologię w oparciu o studia przypadków. Objęły one badanie nastrojów wyborców podczas wyborów w Stanach Zjednoczonych i Hiszpanii poprzez analizę publikowanych przez nich tweetów w czasie rzeczywistym. Nie tylko pokazało to zmiany nastrojów wyborczych, lecz także pozwoliło analitykom dogłębniej im się przyjrzeć – przykładowo sprawdzając, które słowa były najczęściej używane. „Po wybuchu skandalu z pocztą elektroniczną można było wykorzystać nasz system w celu sprawdzenia, ile tweetów dotyczyło reputacji pani Clinton” – zauważa dr Jiménez. „Wprawdzie naszym celem nie było przewidywanie wyników wyborów, jednak zgromadzone informacje z pewnością okazałyby się przydatne dla analityków”.

Podczas drugiego testu, który przeprowadzono we Włoszech, system wykorzystał aktywność osób w mediach społecznościowych, aby stworzyć profile klientów i pomóc bankom w wykrywaniu przypadków kradzieży tożsamości.

Analityka biznesowa w czasie rzeczywistym

Zespół biorący udział w projekcie LEANBIGDATA nie ma wątpliwości, że zintegrowana platforma stanowi odpowiedź na różnorodne potrzeby dużych firm w zakresie zbiorów danych. Mogłaby ona aż o połowę zmniejszyć koszty związane z analizą danych, znosząc konieczność stworzenia i utrzymania procesu ETL. „Dzięki możliwości prowadzenia analityki biznesowej w czasie rzeczywistym przedsiębiorstwa mogą osiągnąć dużo większą sprawność operacyjną” – uważa dr Jiménez.

Spółka LeanXcale założona przez Uniwersytet Techniczny w Madrycie, który jest główną instytucją odpowiedzialną za projekt LEANBIGDATA, planuje komercyjny debiut rozwiązania jesienią 2017 roku. Już teraz opracowane koncepcje testowane są przy udziale banków, przedsiębiorstw telekomunikacyjnych, dużych sprzedawców detalicznych i zaawansowanych technologicznie firm z branży turystycznej.

Słowa kluczowe

LEANBIGDATA, bazy danych SQL, zarządzanie zbiorami big data, big data, magazyn danych klucz-wartość, złożone przetwarzanie zdarzeń, operacyjna baza danych, hurtownia danych, analiza w czasie rzeczywistym
Numer rekordu: 198732 / Ostatnia aktualizacja: 2017-05-26
Śledź nas na: RSS Facebook Twitter YouTube Zarządzany przez Urząd Publikacji UE W górę