Service Communautaire d'Information sur la Recherche et le Développement - CORDIS

FP7

LeanBigData Résultat en bref

Project ID: 619606
Financé au titre de: FP7-ICT
Pays: Espagne

Combiner en une seule plateforme les bases de données opérationnelles et analytiques

Le projet LEANBIGDATA, financé par l'UE, a produit une plateforme de Big Data capable d'effectuer l'analyse des données en temps réel tout en divisant son coût par deux.
Combiner en une seule plateforme les bases de données opérationnelles et analytiques
Un projet dirigé par l'Espagne vise à permettre aux entreprises de tirer un bien meilleur parti de leur Big Data tout en utilisant beaucoup moins de ressources. LEANBIGDATA a développé une plateforme extrêmement efficace et hautement évolutive pour gérer le Big data.

Les grandes entreprises et organisations traitent des volumes croissants de données. Mais elles utilisent pour cela des techniques qui sont souvent inefficaces et exigent des ressources considérables. Les organisations utilisent en général deux bases de données, une pour les données opérationnelles et une autre pour l'entreposage des données. Pour analyser les données, celles-ci doivent être copiées de la première vers la seconde. Compte tenu du fait que les données sont rapidement périmées, ce processus doit être régulièrement répété, en général chaque jour.

Ce procédé, connu sous le nom d'ETL (extraction-transform-load), est coûteux à mettre en place et à maintenir. «Il représente de 75 à 80 % du coût de l'analyse des données», déclare Ricardo Jiménez, coordinateur technique de LEANBIGDATA et directeur général et cofondateur de LeanXcale, une entreprise dérivée destinée à commercialiser les principaux résultats du projet. Qui plus est, l'analyse du Big Data tend à se faire en mode différé plutôt qu'en temps réel, ce qui fait que les utilisateurs ne peuvent pas réagir rapidement aux évènements.

Deux pour le prix d'un

L'équipe de LEANBIGDATA a conçu une solution architecturale capable de fournir les deux fonctions, opérationnelle et analytique, sur une même plateforme, et d'améliorer ainsi grandement l'efficacité. Elle a mis au point un système de gestion des transactions qui évolue de façon linéaire jusqu'à des volumes très importants, permettant à la partie opérationnelle de la base de données d'assumer la charge analytique.

Les chercheurs ont créé trois nouveaux systèmes de gestion. Le premier est un magasin de données clé-valeur, une variété de technologie NoSQL utilisée pour stocker les données d'une base de données combinée. Le deuxième, un système de traitement des évènements complexes, permet aux utilisateurs de transmettre en continu des données à partir d'évènements en temps réel. Le troisième est un moteur distribué de requêtes SQL capable d'exploiter plusieurs ordinateurs pour traiter une même requête. «Cela signifie que nous pouvons répondre à une requête en temps de réponse en ligne, ce qui correspond au temps d'attente acceptable par un utilisateur en ligne ordinaire», déclare le Dr Jiménez.

L'équipe a testé sa technologie par des études de cas. Elle a en particulier étudié les sentiments des électeurs lors des élections aux États-Unis et en Espagne, en analysant leurs tweets en temps réel. Cette étude a montré comment évoluaient les sentiments, mais elle a également permis aux analystes d'identifier ce que recouvraient ces sentiments, en recherchant par exemple quels étaient les mots les plus fréquemment utilisés. «Lorsque le scandale des emails a éclaté, on a pu utiliser le système pour déterminer le nombre de tweets concernant la réputation de Mme Clinton», déclare le Dr Jiménez, «notre objectif n'était pas de prévoir les résultats, mais le système aurait pu fournir des informations utiles aux analystes.»

Un deuxième essai mené en Italie a utilisé la présence des individus sur les réseaux sociaux pour établir des profils de clients et aider les banques à détecter les cas d'identité frauduleuse.

Une analyse décisionnelle en temps réel

L'équipe de LEANBIGDATA est convaincue que sa plateforme unifiée peut répondre aux différents besoins en données des grandes organisations. Elle pourrait diviser par deux le coût de l'analyse de données en rendant superflus la mise en œuvre et le maintien d'une solution d'ETL. «Les entreprises pourront gagner en agilité car elles seront en mesure d'effectuer des analyses décisionnelles en temps réel», déclare le Dr Jiménez.

LeanXcals, mise en place par l'Université technique de Madrid, établissement principal de LEANBIGDATA, vise une mise sur le marché à l'automne 2017. Elle établit déjà des preuves de concept avec des banques, des sociétés de télécommunication, de grands détaillants et des voyagistes de haute technologie.

Mots-clés

LEANBIGDATA, bases de données SQL, gestion du Big data, Big data, magasin de données clé-valeur, traitement d'évènement complexe, base de données opérationnelles, entrepôt de données, analyse en temps réel
Numéro d'enregistrement: 198732 / Dernière mise à jour le: 2017-05-26