Description du projet
Un outil d’analyse de programme pour les non-programmeurs assurant la reproductibilité des analyses
Les conclusions scientifiques reposent généralement sur des analyses détaillées et complexes de nombreuses données expérimentales. À mesure que les ensembles de données augmentent et que les programmes favorisant leur analyse se complexifient, la reproductibilité des analyses, qui constitue une condition nécessaire au succès scientifique, à la reconnaissance et au financement, devient plus difficile à vérifier. Le projet R4R, financé par le CER, entend relever ce défi important grâce à son outil «R4R» destiné aux non-programmeurs, qui permettra de s’assurer que les pipelines d’analyse de données sont reproductibles. En ciblant les logiciels d’analyse de données écrits en R, les chercheurs prévoient d’utiliser des techniques d’analyse dynamique des programmes pour suivre les dépendances, les entrées de données et d’autres sources de non-déterminisme qui affectent la reproductibilité.
Objectif
Unevaluated science is not worth funding. Gone are the days where a scientific breakthrough could be based on scribbles made on a few loose sheets of paper reviewed by a single attentive reader. Most disciplines rely on experimental data that is collected, analyzed, and presented using powerful computational tools. The scientific adventure hinges on our ability to openly and widely share and reproduce such results.
The goal of this PoC is to market a tool, R4R, for non-programmer scientists to make their archival work easily reproducible and offer it to them through a non-expensive licence. Affordable reproducibility is key to independent evaluation of previously published results.
We will focus on reproducibility of data analysis pipelines written in R with RMarkdown or Jupyter. Creating a reproducible environment is hard, labor-intensive and error-prone, and requires expertise that data analysts lack. We propose to use dynamic program analysis techniques to track dependencies, data inputs, and other sources of non-determinism needed for reproducibility. R4R will synthesize metadata to generate self-contained, portable, fully reproducible environments, based on Docker images.
Champ scientifique
Mots‑clés
Programme(s)
- HORIZON.1.1 - European Research Council (ERC) Main Programme
Régime de financement
HORIZON-ERC-POC - HORIZON ERC Proof of Concept GrantsInstitution d’accueil
160 00 Praha
Tchéquie