Les chercheurs en sciences des mégadonnées bientôt dans les nuages
Certains domaines scientifiques produisent des quantités colossales de données. Par exemple, les laboratoires de physique des particules et de génomique génèrent chaque jour environ un pétaoctet (PB) de données. Un pétaoctet correspond à mille téraoctets (un million de gigaoctets), soit environ un quart de million de DVD. Les quelque 10 milliards de photos stockées sur Facebook représentent l’équivalent de 1,8 pétaoctet. La plupart des organismes de recherche scientifique ne sont pas en mesure de stocker de tels volumes en utilisant leurs propres installations, et le problème s’aggrave. Une autre difficulté liée au stockage scientifique actuel tient au fait qu’une grande partie de ces informations ne sont ni publiées ni accessibles au public. C’est pourquoi le nuage européen pour la science ouverte (EOSC pour European Open Science Cloud) a mandaté les représentants de la science ouverte afin qu’ils trouvent une solution pour rendre les résultats scientifiques publics et partageables d’ici fin 2020. Des projets financés par l’UE, dont EOSC-hub et EOSCpilot, ont collaboré au développement et à la maintenance du portail EOSC. Le projet HNSciCloud, financé également par l’UE, est un consortium de fournisseurs de services commerciaux et d’organismes de recherche publics, spécialisés dans le cloud, dont l’objectif est de résoudre les problèmes auxquels la science à forte intensité de données se trouve aujourd’hui confrontée. Les chercheurs ont identifié une lacune sur le marché et ont lancé des appels d’offres après des fournisseurs afin de bâtir une plateforme européenne en nuage haute performance dédiée aux organisations scientifiques. Le concept est similaire aux services en nuage ordinaires, mais à une échelle gigantesque et répondant à des besoins scientifiques particuliers, notamment la conformité aux normes de l’EOSC.
Appel d’offres et conception
Les travaux du projet ont commencé par une phase d’appel d’offres, au cours de laquelle l’équipe a consulté les fournisseurs et les utilisateurs afin de définir les exigences. Suite à cela une liste restreinte de quatre consortiums a été établie. Au cours de la phase de conception qui a suivi, les consortiums sélectionnés ont préparé et soumis leurs propositions. Le comité d’évaluation de HNSciCloud en a sélectionné trois pour passer aux phases de prototype et de pilote. Au cours de ces dernières étapes, les chercheurs du projet ont testé l’extensibilité et la fiabilité de la plateforme en utilisant des cas scientifiques réalistes. Le premier de ces cas d’utilisation était la Grille de calcul mondiale du grand collisionneur de hadrons. Il s’agit d’une collaboration mondiale qui réunit 170 centres de calcul dans 42 pays afin de traiter les données du CERN sur la physique des particules. Les essais de HNSciCloud ont également impliqué de nombreux autres groupes de recherche scientifique européens à fortes exigences. Il s’agit notamment de PanCancer, qui analyse intégralement chaque jour plus de 2 000 génomes du cancer, et du télescope à basse fréquence du Square Kilometre Array.
Services spécialisés
«Le prototype et les phases pilotes ont mis en évidence avec succès les avantages du modèle de nuage hybride, et ont démontré que les organisations pouvaient commodément dépasser les limites de leur infrastructure informatique en adoptant des services commerciaux spécialisés en nuage», déclare le directeur du projet, Bob Jones. Comme l’indique une vidéo du projet, le dispositif «combine différents services au niveau de l’infrastructure en tant que service (infrastructure as a service) afin de fournir un environnement capable de supporter l’ensemble du cycle de vie des flux de travail scientifiques». Ces services comprennent le calcul et le stockage, l’accès transparent à des ensembles de données de l’ordre du pétaoctet, la connectivité de réseau, la gestion fédérée des identités et des modèles de paiement innovants. «Le résultat est une plateforme hybride en nuage, désormais accessible à la communauté scientifique générale, capable de répondre aux exigences extrêmement strictes des TIC, même dans les sciences les plus gourmandes en données», ajoute Bob Jones. HNSciCloud est certifié conforme aux normes et à la législation européennes en matière de sécurité et de protection des données, ainsi qu’à celles de l’EOSC. La plateforme repose sur un code source libre commercialement supporté qui ne nécessite pas de licences. Ces services en nuage innovants fournissent de nouveaux moyens en matière de TIC qui permettront d’étendre les capacités de recherche de l’Europe.
Mots‑clés
HNSciCloud, cloud, données, scientifique, pétaoctets, science à forte intensité de données, plateforme en nuage, stockage en nuage, données scientifiques, réseau, infrastructure en tant que service, stockage de données