Descrizione del progetto
Garantire la riproducibilità delle analisi con uno strumento di analisi dei programmi rivolto ai non programmatori
Le conclusioni scientifiche si basano solitamente sull’analisi dettagliata e complessa di voluminosi dati sperimentali. Man mano che gli insiemi di dati diventano più grandi e i programmi per analizzarli più complicati, la riproducibilità delle analisi, che risulta necessaria per il successo scientifico, il riconoscimento e i finanziamenti, diventa un requisito più difficile da verificare. Il progetto R4R, finanziato dal CER, intende affrontare questa importante sfida fornendo il suo strumento «R4R» destinato ai non programmatori, che semplificherà la garanzia di riproducibilità delle pipeline di analisi dei dati. Concentrandosi su software di analisi dei dati scritti in R, il progetto intende utilizzare tecniche di analisi dinamica dei programmi per tenere traccia delle dipendenze, degli input di dati e di altre fonti di non determinismo che influiscono sulla riproducibilità.
Obiettivo
Unevaluated science is not worth funding. Gone are the days where a scientific breakthrough could be based on scribbles made on a few loose sheets of paper reviewed by a single attentive reader. Most disciplines rely on experimental data that is collected, analyzed, and presented using powerful computational tools. The scientific adventure hinges on our ability to openly and widely share and reproduce such results.
The goal of this PoC is to market a tool, R4R, for non-programmer scientists to make their archival work easily reproducible and offer it to them through a non-expensive licence. Affordable reproducibility is key to independent evaluation of previously published results.
We will focus on reproducibility of data analysis pipelines written in R with RMarkdown or Jupyter. Creating a reproducible environment is hard, labor-intensive and error-prone, and requires expertise that data analysts lack. We propose to use dynamic program analysis techniques to track dependencies, data inputs, and other sources of non-determinism needed for reproducibility. R4R will synthesize metadata to generate self-contained, portable, fully reproducible environments, based on Docker images.
Campo scientifico
Parole chiave
Programma(i)
- HORIZON.1.1 - European Research Council (ERC) Main Programme
Argomento(i)
Meccanismo di finanziamento
HORIZON-ERC-POC - HORIZON ERC Proof of Concept GrantsIstituzione ospitante
160 00 Praha
Cechia