Skip to main content
European Commission logo
polski polski
CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Fault Tolerant High Performance Computing

Opis projektu

Zabezpieczanie superkomputerów przed usterkami

Nauka, inżynieria i przemysł nie mogą obyć się bez sprawnie działających superkomputerów. Ze względu na zwiększenie mocy obliczeniowej i ilości pamięci zakłada się, że w eksaskalowych superkomputerach następnej generacji będą pojawiać się co najmniej dwie usterki na minutę. Dlatego tak ważne jest znalezienie sposobów na zwiększenie odporności na błędy. Metody te muszą być proste i skuteczne. Nie powinny też wymagać zaawansowanej wiedzy fachowej. Finansowany ze środków UE projekt FTHPC ma na celu rozwiązanie tego problemu w oparciu o najnowsze osiągnięcia w dziedzinie kodowania korekcyjnego i prostych dowodów PCP (ang. probabilistically checkable proofs). Jeśli to przedsięwzięcie zakończy się sukcesem, obliczenia eksaskalowe staną się dostępne dla wszystkich twórców algorytmów i programistów, ponieważ wiedza fachowa w zakresie usuwania błędów nie będzie już potrzebna.

Cel

Supercomputers are strategically crucial for facilitating advances in science and technology: in climate change research, accelerated genome sequencing towards cancer treatments, cutting edge physics, devising engineering innovative solutions, and many other compute intensive problems. However, the future of super-computing depends on our ability to cope with the ever increasing rate of faults (bit flips and component failure), resulting from the steadily increasing machine size and decreasing operating voltage. Indeed, hardware trends predict at least two faults per minute for next generation (exascale) supercomputers.

The challenge of ascertaining fault tolerance for high-performance computing is not new, and has been the focus of extensive research for over two decades. However, most solutions are either (i) general purpose, requiring little to no algorithmic effort, but severely degrading performance (e.g. checkpoint-restart), or (ii) tailored to specific applications and very efficient, but requiring high expertise and significantly increasing programmers' workload. We seek the best of both worlds: high performance and general purpose fault resilience.

Efficient general purpose solutions (e.g. via error correcting codes) have revolutionized memory and communication devices over two decades ago, enabling programmers to effectively disregard the very
likely memory and communication errors. The time has come for a similar paradigm shift in the computing regimen. I argue that exciting recent advances in error correcting codes, and in short probabilistically checkable proofs, make this goal feasible. Success along these lines will eliminate the bottleneck of required fault-tolerance expertise, and open exascale computing to all algorithm designers and programmers, for the benefit of the scientific, engineering, and industrial communities.

System finansowania

ERC-COG - Consolidator Grant

Instytucja przyjmująca

THE HEBREW UNIVERSITY OF JERUSALEM
Wkład UE netto
€ 1 824 467,00
Adres
EDMOND J SAFRA CAMPUS GIVAT RAM
91904 Jerusalem
Izrael

Zobacz na mapie

Rodzaj działalności
Higher or Secondary Education Establishments
Linki
Koszt całkowity
€ 1 824 467,00

Beneficjenci (1)