Service Communautaire d'Information sur la Recherche et le Développement - CORDIS

Les chercheurs européens s’organisent pour exploiter le potentiel du Big Data

Fournir aux chercheurs européens un accès plus facile à des solutions de gestion des données et à des systèmes d’archivage à grande échelle proches des super-ordinateurs les plus puissants d’Europe, tout en permettant de déplacer de grandes quantités de données d’un pays à l’autre, tel est l’objectif clé du projet EUDAT2020.
Les chercheurs européens s’organisent pour exploiter le potentiel du Big Data
Pour rester à la pointe du progrès, les chercheurs européens de toutes les disciplines doivent être en mesure de conserver et de gérer l’accès à de grandes quantités de données et de stimuler la collaboration transfrontalière. C’est exactement ce que l’EUDAT2020 a pour but de faciliter.

En s’appuyant sur les réalisations des précédents projets financés par l’UE, cette initiative a constitué un réseau d’organisations de recherche européennes et de centres de données et de calcul de 14 pays pour créer une infrastructure de données collaborative (CDI) paneuropéenne. En avril 2018, 23 partenaires avaient officiellement rejoint la CDI.

Le coordinateur du projet, Damien Lecarpentier du CSC en Finlande, nous décrit les réalisations de ce projet ainsi que le rôle qu’il a joué pour contribuer à garantir l’excellence européenne future en matière de recherche.

Nous avons entendu parler du Big Data et des nouvelles opportunités que cela implique pour les chercheurs. Mais pouvez-vous détailler quelques-unes des problématiques rencontrées?

L’Union européenne et ses États membres ont beaucoup investi ces dernières années dans la mise en place de réseaux de distribution et de systèmes de calcul à haute performance (CHP). Cette gageure est la conséquence de la croissance rapide de la quantité de données, due à la fois à de nouveaux instruments scientifiques puissants, aux capacités de simulation et à la numérisation des ressources existantes, et qui requière de nouvelles manières d’organiser et de traiter la quantité d’informations désormais disponibles. Nous devons mettre au point une approche plus cohérente de la gestion des données, et c’est ce que ce projet s’est fixé comme objectif. Nous voulions connecter les centres de données afin d’apporter un support plus efficace aux différentes communautés de recherche.

Pouvez-vous nous donner quelques exemples plus spécifiques?

En sciences de la terre solide, les données collectées intègrent des données en temps réel et des données off-line (comme les photos, les vidéos et les structures de données organisées stockées dans des bases de données). Ces différents types d’informations présentent des exigences techniques différentes en matière d’accès et de conservation. Dans la communauté biomédicale, l’un des principaux défis consiste à garantir l’accessibilité des données tout en respectant les exigences légales relatives à l’anonymat des patients et à la confidentialité. Tous les domaines de recherche, y compris les sciences humaines et les sciences sociales, sont confrontés à des problématiques liées à la reproduction et à l’accessibilité des données dans des environnements à utilisateurs multiples.

Quel a été le rôle des chercheurs dans ce projet?

Depuis le début, les communautés de chercheurs ont joué un rôle moteur en matière de sélection des services de données. Par l’intermédiaire d’équipes pluridisciplinaires, elles ont également participé directement à la conception et au développement de ces services. Le projet a réuni plus de 50 communautés de chercheurs dans plusieurs disciplines, chacune apportant ses exigences et connaissances spécifiques. Ces exigences vont du besoin de reproduire des données pour améliorer l’accessibilité et de garantir la sécurité des informations sensibles, à la capacité à les partager au-delà de la communauté initiale.

Les communautés de chercheeurs plus récentes sont souvent encore en train de concevoir leurs propres processus clés de flux de données et sont intéressées par le fait de tester plusieurs solutions avant de s’engager. Les communautés plus matures disposent souvent d’infrastructures de travail existantes.

Quand cela est possible, nous considérons les services existants comme des opportunités et nous essayons de les soutenir en fournissant aux communautés la possibilité de changer l’échelle de leur environnement informatique et d’archivage en recourant aux infrastructures CDI. Ce qui implique de considérer les communautés de chercheurs comme des fournisseurs de service et non pas seulement comme des clients.

Comment ce projet profitera-t-il aux chercheurs?

Les communautés de chercheurs impliquées dans le projet ont été en mesure de planifier, exécuter et utiliser des services de gestion de données à l’échelle européenne. Les domaines scientifiques couverts incluent les sciences humaines et les sciences sociales, les sciences de la Terre et de l’atmosphère, la climatologie, la biodiversité, les sciences de la vie et la physique.

Par le passé, si j’avais besoin d’accéder à un système d’archivage sur lequel je pouvais également analyser mes données, je pouvais m’adresser à mon centre local de données et de calcul. Mais cela ne concernait que les utilisateurs locaux, dans un même pays. Pour envoyer des données vers d’autres pays ou pour partager des informations et des outils avec des collègues étrangers il fallait souvent recourir à des solutions sur mesure, tout simplement impossibles à produire à grande échelle. Ce partenariat durable, dans lequel tous les membres partagent une vision commune, a ouvert l’accès à des outils de gestion des données à l’échelle de l’Europe et a permis de mettre en place des collaborations européennes bien plus rapidement.

Le projet a également rendu les fournisseurs de systèmes d’archivage et de gestion des données bien plus conscients des besoins des communautés de recherche. Et notamment de leurs exigences en matière de gestion des informations et de la manière dont elles organisent leurs infrastructures de recherche spécifiques; par exemple, en implémentant leurs propres services de gestion des données ou en recourant à des services préexistants qui nécessitent des adaptations spécifiques.

Quels ont été les facteurs de succès clés de ce projet?

Ces réalisations ont été rendues possibles grâce à un financement généreux du projet par l’UE et grâce à un groupe de partenaires extrêmement impliqués. En partant des expériences des projets précédents et en travaillant ensemble, nous sommes parvenus à créer une culture unique d’échange de connaissances et de collaboration en mode ouvert. Nous avons mis en place la CDI de l’EUDAT afin de préserver et de faire perdurer cet héritage.

Comment garantir la continuité de cet héritage?

Au cours de la dernière année du projet, nous avons axé nos travaux sur l’évolution du projet de base vers une organisation durable. Les partenaires de l’EUDAT se sont engagés à maintenir le CDI et ses services pour une période initiale de 10 ans. Nous avons également mis en place un secrétariat pour coordonner le développement et le fonctionnement de l’infrastructure du CDI, et, en février 2018, une société à responsabilité limitée a officiellement été constituée. Elle fonctionnera comme une structure à but non lucratif en tant que porte-parole des organisations européennes travaillant ensemble dans le cadre de la CDI de l’EUDAT, et fournira des services en lien avec l’archivage de données scientifiques et de recherche, et de gestion du cycle de vie.

Quant au futur, la CDI de l’EUDAT est une organisation en pleine croissance qui fonctionne sur la base d’un accord contractuel entre ses membres. C’est l’un des piliers clés de l’European Open Science Cloud, un cloud dédié aux données de recherche en Europe. Le CDI est une entreprise ouverte et accueille des fournisseurs de services qui souhaitent rejoindre le réseau avec différents niveaux d’engagement et d’intégration.

Source: Entretien extrait du magazine research*eu consacré aux résultats, nº 74

Informations connexes

Programmes

Pays

  • Finlande