Description du projet
Remédier aux ralentissements des processus d’apprentissage profond
L’apprentissage profond a apporté des avantages considérables à une pléthore d’applications industrielles, grâce à l’apprentissage et à l’utilisation de réseaux de neurones profonds (DNN) de grande taille et précis dans un processus distribué. Malheureusement,de nombreux défis, en particulier le risque de ralentissements importants de la distribution lors de la réception des données de la bibliothèque d’apprentissage, peuvent entraîner une énorme perte financière, de temps et d’énergie. Le projet FastML, financé par le CER, entend réduire et éviter ce risque en développant un cadre d’apprentissage distribué qui réduit les frais de distribution dans la parallélisation pour les charges de travail d’apprentissage distribué. Il fera, pour ce faire, appel à de nouvelles techniques algorithmiques et logicielles qui réduisent les frais de distribution tout en maintenant la précision et la convergence de l’apprentissage.
Objectif
Deep Learning is an area of massive progress, with myriad applications and significant industry adoption. A key enabler of its progress is the ability to train large, highly-accurate Deep Neural Networks (DNNs) in a distributed fashion, across tens to thousands of different computational nodes. Yet, DNN training at scale poses severe challenges to standard paradigms in distributed computing; existing distributed training approaches and their practical implementations, via training libraries such as PyTorch or TensorFlow, often suffer from major distribution bottlenecks, which can significantly reduce computational efficiency, leading to wasted time, money, and energy.
The FastML proof-of-concept (PoC) project will tackle this efficiency challenge head-on, by introducing a distributed training framework that will significantly reduce or even eliminate the overheads of parallelization for practical distributed training workloads, in common usage scenarios. FastMLs distinctive feature is leveraging the algorithmic and software techniques developed by our ERC Starting Grant, in order to reduce distribution overheads at scale without impacting training convergence or model accuracy. FastML stands in contrast to current distribution techniques, which rely on hardware overprovisioningessentially, providing very fast but also very expensive interconnects between the computing nodes. As such, FastML can bring significant infrastructure and running cost improvements to its users, as well as lowering the cost and hardware entry barrier to training accurate machine learning models. The PoC will design and develop the FastML software library to target industry-relevant workloads via pilot projects jointly with our industrial partners. In addition, we will perform an in-depth market study, devise intellectual property and go-to-market strategies, and produce a minimally-viable product (MVP), which will be demonstrated to potential customers and investors.
Champ scientifique (EuroSciVoc)
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: https://op.europa.eu/en/web/eu-vocabularies/euroscivoc.
CORDIS classe les projets avec EuroSciVoc, une taxonomie multilingue des domaines scientifiques, grâce à un processus semi-automatique basé sur des techniques TLN. Voir: https://op.europa.eu/en/web/eu-vocabularies/euroscivoc.
Vous devez vous identifier ou vous inscrire pour utiliser cette fonction
Programme(s)
- HORIZON.1.1 - European Research Council (ERC) Main Programme
Appel à propositions
(s’ouvre dans une nouvelle fenêtre) ERC-2023-POC
Voir d’autres projets de cet appelRégime de financement
HORIZON-ERC-POC - HORIZON ERC Proof of Concept GrantsInstitution d’accueil
3400 Klosterneuburg
Autriche