Fault Tolerant High Performance Computing

Descrizione del progetto

Supercomputer a prova di guasti

Le comunità scientifiche, ingegneristiche e industriali fanno grande affidamento sui supercomputer e sulla loro capacità di funzionare in modo efficiente. Con la maggiore potenza di elaborazione e la maggiore memoria, si prevede che i supercomputer di nuova generazione (su esascala) registreranno almeno due guasti al minuto, per cui è imperativo trovare soluzioni semplici ed efficaci per migliorare la tolleranza ai guasti che non richiedano un elevato livello di competenza. Il progetto FTHPC, finanziato dall’UE, si propone di risolvere il problema della tolleranza ai guasti ricorrendo ai recenti progressi ottenuti con i codici di correzione degli errori e a brevi prove verificabili probabilisticamente. Il successo di questo sforzo eliminerà la necessità di competenze sulla tolleranza ai guasti e renderà il calcolo su esascala accessibile a tutti i progettisti di algoritmi e programmatori.

Obiettivo

Supercomputers are strategically crucial for facilitating advances in science and technology: in climate change research, accelerated genome sequencing towards cancer treatments, cutting edge physics, devising engineering innovative solutions, and many other compute intensive problems. However, the future of super-computing depends on our ability to cope with the ever increasing rate of faults (bit flips and component failure), resulting from the steadily increasing machine size and decreasing operating voltage. Indeed, hardware trends predict at least two faults per minute for next generation (exascale) supercomputers.

The challenge of ascertaining fault tolerance for high-performance computing is not new, and has been the focus of extensive research for over two decades. However, most solutions are either (i) general purpose, requiring little to no algorithmic effort, but severely degrading performance (e.g. checkpoint-restart), or (ii) tailored to specific applications and very efficient, but requiring high expertise and significantly increasing programmers' workload. We seek the best of both worlds: high performance and general purpose fault resilience.

Efficient general purpose solutions (e.g. via error correcting codes) have revolutionized memory and communication devices over two decades ago, enabling programmers to effectively disregard the very
likely memory and communication errors. The time has come for a similar paradigm shift in the computing regimen. I argue that exciting recent advances in error correcting codes, and in short probabilistically checkable proofs, make this goal feasible. Success along these lines will eliminate the bottleneck of required fault-tolerance expertise, and open exascale computing to all algorithm designers and programmers, for the benefit of the scientific, engineering, and industrial communities.

Campo scientifico

Parole chiave

Meccanismo di finanziamento

ERC-COG - Consolidator Grant

Istituzione ospitante

THE HEBREW UNIVERSITY OF JERUSALEM

Contribution nette de l'UE

€ 1 824 467,00

Indirizzo

EDMOND J SAFRA CAMPUS GIVAT RAM
91904 Jerusalem
Israele

Tipo di attività

Higher or Secondary Education Establishments

Collegamenti

Contatta l’organizzazione Sito web

Partecipazione a programmi di R&I dell'UE

Rete di collaborazione HORIZON

Costo totale

€ 1 824 467,00

Beneficiari (1)

THE HEBREW UNIVERSITY OF JERUSALEM

Israele

Contribution nette de l'UE

€ 1 824 467,00

Descrizione del progetto

Supercomputer a prova di guasti

Obiettivo

Campo scientifico

Parole chiave

Programma(i)

Argomento(i)

Invito a presentare proposte

Meccanismo di finanziamento

Istituzione ospitante

Beneficiari (1)

Condividi questa pagina

Scarica