Un nuevo sistema de almacenamiento de datos reduce los recursos necesarios para la supercomputación a exaescala

Los superordenadores a exaescala gestionan hasta 1 000 terabytes (TB) de datos al día, aunque pueden pasar horas hasta que estos llegan al procesador. Un innovador proyecto de la Unión Europea elimina este obstáculo.

Economía digital

Los superordenadores actuales son máquinas con miles de procesadores trabajando en paralelo para lograr un ritmo de cálculo muy superior al de los ordenadores normales. Los superordenadores a exaescala representan la última generación de este tipo de máquinas. Se trata de equipos capaces de superar el trillón de cálculos por segundo, y los últimos modelos pueden llegar a una velocidad mil veces superior a la de los mejores aparatos de hace tan solo una década. Estos ordenadores se utilizan en campos de investigación en los que es necesario disponer de una gran capacidad de computación, como los estudios climáticos y meteorológicos, la genómica o las simulaciones del cerebro humano. Las tecnologías de gestión de datos actuales no consiguen satisfacer adecuadamente las necesidades de los superordenadores. Por ejemplo, un superordenador convencional de altas prestaciones puede ejecutar una simulación en más de 8 000 procesadores, lo que genera unos 25 TB de datos al día. El procesamiento de los datos brutos duplica o triplica esa cantidad. Ya existen aplicaciones que tienen que leer cientos de terabytes. Sin embargo, en los superordenadores será habitual encontrarse con aplicaciones que generen petabytes (1 000 TB). Normalmente, los ordenadores almacenan los datos en algún lugar y los mueven a otro para analizarlos y procesarlos. En la actualidad, se tardan muchas horas en mover terabytes o petabytes de datos, aunque se usen las redes más avanzadas. Esto supone un grave obstáculo. Además, este movimiento de datos consume cientos de megavatios de energía. La eliminación del obstáculo El proyecto financiado con fondos europeos SAGE(se abrirá en una nueva ventana) ha desarrollado un nuevo sistema de almacenamiento de datos a la altura de las exigencias de la computación a exaescala. Esta innovación minimiza la necesidad de mover los datos. El Dr. Sai Narasimhamurthy, responsable del proyecto, explica: «En lugar de mover los datos, nuestro sistema lleva el proceso de computación al sistema de almacenamiento». De este modo, los datos se pueden procesar en el mismo lugar donde están almacenados o cerca de ellos. Las aplicaciones de supercomputación pueden reducir el número de módulos analíticos según sea necesario. El sistema de «almacenamiento inteligente» de SAGE también optimiza el almacenamiento de los datos. Los datos se pueden almacenar en diferentes niveles: discos duros convencionales, discos de estado sólido, memorias no volátiles, etc. Cada uno de ellos tiene unas determinadas características de funcionamiento. El sistema SAGE mueve los datos al nivel que tenga las características adecuadas en el momento preciso. Como consecuencia, hay un aumento del rendimiento. La combinación de ambos conceptos se traduce en flexibilidad y versatilidad. Las aplicaciones con formatos de datos complejos y variados pueden emplear diferentes tipos de herramientas para gestionarlos. Esto produce una interfaz de programación de aplicaciones ampliable y de gran capacidad, que el equipo SAGE también ha desarrollado. Demostración del prototipo El Dr. Narasimhamurthy añade: «Nuestro prototipo era "muy pequeño" y solo podía gestionar cantidades de datos inferiores a medio petabyte. Además, nuestro "software" aún no está optimizado». Por lo tanto, no es realista comparar el funcionamiento de un prototipo con el de clústeres de producción a gran escala. En lugar de eso, el objetivo del equipo era demostrar que estos métodos y técnicas funcionaban. No solo lograron eso; también probaron que el sistema se puede ampliar con facilidad para un «hardware» de almacenamiento mayor. La acogida por parte de la comunidad científica ha sido muy positiva. Tras haber conseguido demostrar el funcionamiento de estas técnicas, el proyecto continuará bajo el nombre de Sage2. Este nuevo trabajo de investigación ampliará el prototipo SAGE y explorará nuevas maneras de utilizar el almacenamiento distribuido en memorias no volátiles. También analizará las aplicaciones de inteligencia artificial y «aprendizaje profundo» en superordenadores a exaescala. El sistema SAGE eliminará o reducirá considerablemente los obstáculos que afrontan los superordenadores a exaescala, lo que permitirá que estas máquinas funcionen a una velocidad cercana a su nivel máximo. Además, las previsiones indican que el consumo de energía termine siendo unas cien veces inferior al de los sistemas actuales. Se espera que el mercado global del almacenamiento en ordenadores de altas prestaciones llegue a los 6 000 millones de dólares estadounidenses en 2021. El mercado del análisis de datos masivos y del almacenamiento en la nube será aún mayor. Los proyectos SAGE se centrarán en los componentes europeos de ambos mercados.