Une meilleure technologie pour le Big Data
Saviez-vous que le réseau d'un FAI classique transfère chaque jour des téraoctets de données? Qu'aujourd'hui les données relient près de deux milliards de personnes dans le monde et que d'ici 2020, le nombre de dispositifs connectés à Internet devrait dépasser les 50 milliards? Ces nombres gigantesques signifient que la quantité déjà considérable de données actuelles continuera de croître à un rythme effréné. Le défi consistant à identifier et catégoriser de façon précise ce trafic réseau en fonction du type d'application a été relevé par le projet ONTIC, financé par l'UE. Son objectif: développer de nouvelles techniques pour analyser et caractériser les grandes quantités de données circulant dans les réseaux informatiques modernes. «L'identification et la catégorisation précises du trafic réseau en fonction du type d'application constituent un élément important de nombreuses tâches de gestion et d'ingénierie de réseau relatives à la qualité de service (QoS), la planification de la capacité et la détection des attaques de réseau», déclare Alberto Mozo, chercheur principal du projet ONTIC. Enquêter, mettre en œuvre et tester Selon les chercheurs d'ONTIC, une gestion proactive et dynamique de la QoS nécessite une détection précoce des intrusions et des problèmes de congestion de réseau. Il faut pour cela disposer d'un mécanisme précis et évolutif pour fournir une caractérisation en ligne de l'évolution des modèles de trafic réseau. Le problème tient cependant au fait que les approches actuelles de la caractérisation en ligne du trafic réseau souffrent d'un manque d'évolutivité et de précision. Les chercheurs d'ONTIC y ont vu une opportunité pour développer une nouvelle génération de techniques et de mécanismes évolutifs capables de caractériser le trafic réseau en ligne. «Notre objectif étaient d'étudier, mettre en œuvre et tester une nouvelle architecture de mécanismes et techniques destinée à caractériser les flux de données du trafic réseau en ligne et à détecter les anomalies en temps réel, lorsqu'un grand nombre de paquets sont traités chaque seconde», déclare M. Mozo. «Nos techniques d'analyse des données sont destinées à identifier les régularités récurrentes que l'on trouve dans les modèles descriptifs.» Le projet visait également à développer un nouvel ensemble de mécanismes et de techniques d'exploration de données hors ligne afin de caractériser le trafic réseau, d'appliquer une approche analytique du Big Data et d'utiliser pour les grands ensembles de données des modèles d'informatique distribuée dans le cloud. Dans le même temps, les chercheurs ont intégré des mécanismes et techniques en ligne et hors ligne dans le trafic réseau autonome supervisé ou non supervisé. Un accent particulier sur les algorithmes évolutifs Ne voulant pas réinventer la roue, le projet a adopté un cadre architectural existant, à savoir l'Architecture Lambda pour le Big Data. «Nous avons décidé de consacrer l'essentiel de nos efforts au développement d'algorithmes massivement évolutifs qui pourraient être utilisés dans le contexte de la classification du trafic réseau», déclare M. Mozo. «Pour résumer, nous avons concentré nos efforts non sur l'architecture, mais sur la conception de nouveaux algorithmes et leur utilisation pour des prototypes destinés à la détection des anomalies, au contrôle proactif de la congestion et à la gestion dynamique de la QoS/QoE. Comme le projet ONTIC cherchait à produire les connaissances nécessaires aux entreprises technologiques pour assurer la sécurité de leurs données, il s'est attaché à diffuser ses résultats par le biais d'articles et de prototypes scientifiques de haute qualité (plutôt que de proposer des produits ou des services réels). L'un de ses principaux résultats a été la mise à disposition gratuite du code de tous les algorithmes développés par ONTIC, via un référentiel GitLab et dans le cadre d'un contrat de licence open source. Au terme du projet en janvier 2017, l'équipe avait produit 0,5 pétaoctet de données publiquement disponibles contenant des en-têtes de paquets rendus anonymes, qui pourront être utiles à d'autres chercheurs. Les chercheurs ont également mis au point trois prototypes qui ont démontré l'intérêt de l'apprentissage automatique en parallèle dans le domaine des télécommunications, ainsi que trois inventions relatives à ces prototypes et une demande de brevet. Diverses entreprises technologiques de pointe, dont Ericsson, Satec et le CNRS, prévoient également d'adapter certaines inventions d'ONTIC pour développer des produits commerciaux.
Mots‑clés
ONTIC, TIC, informatique, Big Data, télécommunications