Mejores tecnologías para los datos masivos

Un grupo de investigadores financiado por la Unión Europea ha creado nuevos conceptos de computación y herramientas específicas para ayudar a las empresas a cubrir sus necesidades, cada vez más complejas, en relación con los datos masivos (Big Data).

Economía digital

¿Sabía que la red típica de un ISP transfiere terabytes de datos cada día? ¿Y que en la actualidad los datos conectan a casi 2 000 millones de personas de todo el mundo y que en 2020 se espera que el número de dispositivos conectados a Internet supere los 50 000 millones? Estas cifras tan grandes significan que el volumen actual de datos, ya de por sí enorme, seguirá creciendo a una velocidad excepcional. El reto que se plantea consiste en identificar con precisión y categorizar este tráfico de red conforme al tipo de aplicación, un reto al que se ha enfrentado el proyecto ONTIC, financiado por la Unión Europea. Su objetivo: desarrollar técnicas nuevas para analizar y caracterizar las grandes cantidades de tráfico de datos que circulan por las redes de ordenadores modernas. «La identificación precisa y la categorización del tráfico de la red en función del tipo de aplicación es un elemento importante en muchas tareas de gestión e ingeniería de redes relacionadas con la calidad de servicio (CdS), la planificación de capacidad y la detección de ataques a la red», explica el investigador principal de ONTIC, Alberto Mozo. Investigar, implementar y probar Según los investigadores de ONTIC, la gestión proactiva y dinámica de la CdS requiere poder detectar las intrusiones en la red red y los problemas de congestión de forma precoz. Para ello, se necesita un mecanismo preciso y escalable a fin de disponer de una caracterización en línea de la evolución de los patrones de tráfico de la red. Sin embargo, el problema es que los métodos actuales para caracterizar el tráfico de la red en línea presentan carencias relativas a la escalabilidad y la precisión. Aquí, los investigadores de ONTIC vieron la oportunidad de desarrollar una nueva generación de mecanismos y técnicas escalables adecuados para caracterizar el tráfico de la red en línea. «Nuestro objetivo era investigar, implementar y probar una nueva arquitectura de mecanismos y técnicas para caracterizar el tráfico de flujos de datos en la red y detectar anomalías en tiempo real, con la cual se pueda procesar un gran volumen de paquetes por segundo», explica Mozo. «Nuestras técnicas de análisis de datos están pensadas para identificar las regularidades recurrentes que se encuentran en los modelos descriptivos». El proyecto también tenía como finalidad desarrollar un nuevo conjunto de mecanismos y técnicas de minería de datos sin conexión para caracterizar el tráfico de la red, aplicar un enfoque de análisis de datos masivos y utilizar paradigmas de computación distribuida en la nube sobre grandes conjuntos de datos. A la vez, los investigadores integraron mecanismos y técnicas en línea y fuera de línea en el tráfico de red autónomo, supervisado o sin supervisión. Enfoque en los algoritmos escalables Para no reinventar la rueda, los investigadores del proyecto adoptaron un marco arquitectónico ya existente, la arquitectura Lambda para datos masivos. «Decidimos centrar la mayor parte de nuestros esfuerzos en desarrollar algoritmos escalables de forma masiva que se pudieran aplicar en el contexto de la clasificación del tráfico de la red», aclara Mozo. «En resumen, no nos concentramos en la arquitectura, sino en el diseño de nuevos algoritmos y su aplicación a prototipos para detectar anomalías, controlar la congestión de forma proactiva y gestionar la CdS/CdE de forma dinámica». Dado que el proyecto ONTIC se había propuesto generar los conocimientos necesarios para que las empresas pudieran proteger sus datos, el equipo se centró en producir artículos científicos de gran calidad y prototipos como forma de divulgar sus descubrimientos, y no en generar productos o servicios concretos. Uno de sus resultados principales fue poner el código de los algoritmos de ONTIC a disposición del público gratuitamente mediante un repositorio GitLab con una licencia de código abierto. Al finalizar el proyecto en enero de 2017, se había creado un conjunto de datos disponible públicamente de 0,5 petabytes, el cual contenía encabezados de paquetes anonimizados que pueden ser útiles para otros investigadores. Los investigadores también desarrollaron tres prototipos que demostraron las posibilidades de aplicar el aprendizaje automático en paralelo al dominio de las telecomunicaciones, junto con tres invenciones relacionadas con estos prototipos y una solicitud de patente. Además, distintas empresas tecnológicas líderes, incluidas Ericsson, Satec y CNRS, tienen planeado comercializar algunas de las invenciones de ONTIC.

Palabras clave

ONTIC, TIC, computación, Big Data, telecomunicaciones

Online Network TraffIc Characterization

Mejores tecnologías para los datos masivos

Palabras clave

Descubra otros artículos del mismo campo de aplicación

Compartir esta página

Descargar