Democratizzazione dei megadati con una nuova piattaforma per il cloud computing
Le piattaforme di analisi dei dati senza server consentono agli utenti di eseguire l’elaborazione dei megadati senza conoscenze specialistiche di programmazione cloud. Sono scalabili e offrono enormi risorse di calcolo e di archiviazione per l’elaborazione parallela di terabyte di dati, diversamente dalle limitate capacità dei cluster di calcolo ad elevate prestazioni (HPC). Sono anche pay-per-use, ovvero gli utenti pagano solo per le risorse utilizzate, fatturate in millisecondi, senza la necessità del supporto informatico esperto richiesto dai cluster HPC. «La tecnologia senza server può sostanzialmente democratizzare l’analisi dei megadati; chiunque abbia un computer e una connessione wifi può sfruttare risorse di calcolo praticamente infinite», spiega il coordinatore del progetto CloudButton Pedro Garcia Lopez, dell’Università di Rovira i Virgili (URV), che ha ospitato il progetto. CloudButton ha creato Lithops, una piattaforma che funziona con lo stesso codice non modificato su diversi cloud provider, evitando che gli utenti siano vincolati a un unico fornitore. Il partner del progetto IBM sta già commercializzando Lithops con i propri clienti e la piattaforma sarà adottata da due spin-off di progetti biotecnologici. Sono già in fase di incubazione lo SpaceM dello European Molecular Biology Laboratory (EMBL) per la scoperta di farmaci e il DATOMA Cloud di URV (previsto per il 2023) che offrirà servizi di calcolo basati su cloud per i dati omici.
Uno strumento per verificare i tempi
Il team di CloudButton ha dimostrato il potenziale di Lithops con enormi volumi di dati provenienti da tre fonti: genomica, metabolomica e geospaziale. I dati genomici riguardavano testi compressi, mentre i dati metabolomici (lo studio delle molecole) e geospaziali comprendevano immagini di grandi dimensioni. Per il lavoro sulla metabolomica, all’EMBL è stata spostata una piattaforma basata su cloud chiamata METASPACE (un precedente progetto dell’UE) per farla funzionare su Lithops. «Abbiamo dimostrato che terabyte di dati metabolomici sono stati elaborati in modo efficiente in un ambiente di produzione, a cui hanno avuto accesso centinaia di utenti in tutto il mondo, compreso il personale di organizzazioni come AstraZeneca», aggiunge Lopez. Il team, in collaborazione con il partner del progetto, il James Hutton Institute, ha dimostrato che Lithops può migliorare le prestazioni di elaborazione dei dati genomici a costi ridotti, rispetto all’esecuzione delle stesse analisi con un cluster HPC. «Abbiamo eseguito un processo analitico detto Variant Call, con un ampio set di dati sia su Lithops che su Illumina, un’opzione esistente in commercio. Abbiamo superato in modo significativo Illumina di 3 minuti rispetto ai loro 30 minuti», afferma Lopez. Lithops ha mostrato gli stessi vantaggi nell’elaborazione dei dati geospaziali, rispetto all’esecuzione dello stesso codice in un ambiente HPC. Lithops supporta un’ampia gamma di tipi di dati genomici, metabolomici e geospaziali. La soluzione offre inoltre un contesto MapReduce, ottimizzato per l’elaborazione parallela di megadati. Per rendere il sistema più disponibile, il team ha sviluppato la serie di strumenti CloudButton, un insieme di risorse open-source per aiutare gli utenti a migrare le proprie applicazioni verso il cloud in diversi linguaggi di programmazione come Python, Java o C++.
Crescita pronta all’uso
Il cloud computing è una parte fondamentale della strategia di digitalizzazione dell’UE e avrà un impatto su molte applicazioni quotidiane. L’approccio di CloudButton potrebbe contribuire a semplificare in modo economico questa transizione. «Le PMI o i ricercatori che non possono permettersi cluster propri o esperti di cloud per eseguire il codice possono sfruttare a basso costo migliaia di computer paralleli che analizzano gigabyte di dati. Con il nostro sistema che nasconde efficacemente la rete distribuita di back-end, gli utenti possono subito agire», conclude Lopez. I vantaggi saranno probabilmente percepiti soprattutto da settori come il biotech e l’agrotech. La serie di strumenti di CloudButton potrebbe aiutare le aziende biotecnologiche a progettare nuovi farmaci, mentre le start-up del settore agroalimentare potrebbero trarre vantaggio dall’analisi geospaziale dei dati provenienti dal satellite Sentinel 2, ad esempio per la gestione delle acque. Lithops sarà anche una tecnologia chiave in tre prossimi progetti finanziati dall’UE: NEARDATA (dati omici estremi), CloudSkin (edge computing) ed EXTRACT (dati geospaziali estremi), garantendone lo sviluppo continuo.
Parole chiave
CloudButton, megadati, calcolo in cloud, genomica, geospaziale, metabolomica, codice, programmazione, HPC