Skip to main content

Article Category

Article available in the folowing languages:

Los investigadores en ciencia de los datos pasarán el día en las nubes

Determinados proyectos de investigación de la Unión Europea (UE) producen montañas de datos, pero procesar y almacenar tanta cantidad plantea un enorme reto. Un equipo de la UE tiene la respuesta.

Economía digital

Algunas ramas de la ciencia producen cantidades ingentes de datos. Por ejemplo, los laboratorios de física de partículas y de genómica generan alrededor de un petabyte (PB) de datos al día. Un petabyte equivale a mil terabytes (un millón de gigabytes), aproximadamente doscientos cincuenta mil DVD. Unos diez mil millones de fotos que se almacenan en Facebook ocupan aproximadamente 1,8 PB. La mayoría de los organismos de investigación científica no son capaces de alojar estas cantidades en sus propias instalaciones, y el problema está agravándose. Otro problema con el actual almacenamiento científico es que muchos de estos datos no se publican ni están disponibles al público. Por esta razón, la Nube Europea de la Ciencia Abierta (EOSC, por sus siglas en inglés) estableció la ciencia abierta, que empezará a funcionar en 2020, para que los resultados científicos sean públicos y se puedan compartir. Los proyectos financiados con fondos europeos, incluidos EOSC-hub y EOSCpilot, han colaborado en el desarrollo y mantenimiento del portal de la EOSC. El proyecto HNSciCloud, financiado con fondos europeos, es un consorcio de proveedores de servicios en nube comerciales y de organismos públicos de investigación al que se ha encomendado la tarea de resolver los problemas a los que hace frente la ciencia intensiva en datos. Los investigadores identificaron una brecha en el mercado y gestionaron las solicitudes de licitación de los proveedores para construir una plataforma europea de alto rendimiento en la nube para los organismos científicos. La idea se parece a los servicios en nube ordinarios, pero esta es a escala gigantesca y satisface unas necesidades científicas especiales, como la conformidad con la EOSC.

Licitación y diseño

El trabajo del proyecto comenzó con una fase de licitación, durante la que el equipo consultó a proveedores y usuarios para definir los requisitos. De esta forma, se elaboró una lista breve de cuatro consorcios. Durante la fase de diseño posterior, los consorcios seleccionados prepararon y enviaron sus propuestas. De estas, el comité de evaluación de HNSciCloud seleccionó a tres para que pasasen a las fases de prototipo y piloto. En estas últimas etapas, los investigadores del proyecto probaron la escalabilidad y la fiabilidad de la plataforma a través de argumentos científicos realistas. El primero de estos casos de uso fue la red mundial de computación del Gran Colisionador de Hadrones. Se trata de una colaboración global que consta de 170 centros de cálculo en 42 países y que procesa los datos sobre física de partículas del CERN (Organización Europea de Investigación Nuclear). Además, las pruebas del HNSciCloud involucraron a muchos otros grupos europeos de investigación científica con alta demanda. Entre ellos, se incluyen PanCancer, que analiza más de dos mil genomas del cáncer al día, y el telescopio de baja frecuencia del Conjunto del Kilómetro Cuadrado.

Servicios especializados

«Las fases piloto y prototipo consiguieron demostrar los beneficios del modelo de nube híbrida, y evidenciaron que las organizaciones pueden superar sin complicaciones las limitaciones de sus infraestructuras informáticas adoptando unos servicios comerciales especializados en la nube», comenta Bob Jones, director del proyecto. Tal como se señala en un vídeo del proyecto, «combina servicios al nivel de infraestructura como servicio para ofrecer un entorno que respalde todo el ciclo de vida de los flujos del trabajo científico». Los servicios incluyen cálculo y almacenamiento, acceso transparente a petabytes de conjuntos de datos, conectividad de red, gestión de la identidad federada y modelos de pago innovadores. «El resultado es una plataforma en la nube híbrida que ahora está disponible a toda la comunidad científicay que es capaz de satisfacer los requisitos extremadamente exigentes de las TIC, incluso en las ciencias más intensivas en datos», añade Jones. HNSciCloud tiene el certificado de cumplimiento de las normas y la legislación europeas en el ámbito de seguridad y protección de los datos, así como de la EOSC. La plataforma se basa en un código abierto con apoyo comercial que no requiere licencias. Estos innovadores servicios en la nube proporcionan una nueva capacidad informática que ampliará las competencias en investigación de Europa.

Palabras clave

HNSciCloud, nube, datos, científico, petabyte, ciencia intensiva en datos, plataforma en la nube, almacenamiento en la nube, datos científicos, red, infraestructura como servicio, almacenamiento de datos

Descubra otros artículos del mismo campo de aplicación