Descripción del proyecto
Superación de los problemas de rendimiento en la ciencia de datos y el aprendizaje automático
La ciencia de datos y el aprendizaje automático han alcanzado una posición importante en los campos científicos y en los estudios del mundo contemporáneo. Esto fue posible con un progreso casi constante de las plataformas, la mayor disponibilidad de datos y unos algoritmos y un rendimiento computacional mejorados. Por desgracia, a pesar de estas mejoras continuas, se prevé que el rendimiento computacional se ralentice, con un efecto negativo sobre los otros tres parámetros. El objetivo del proyecto ScaleML, financiado con fondos europeos, es encontrar una solución mediante la introducción de una metodología novedosa para el aprendizaje automático y la ciencia de datos que pueda superar estas deficiencias. Con este fin, se desarrollarán técnicas para permitir la coordinación flexible entre los aparatos singulares y de red, lo cual debería ayudar a superar los problemas de rendimiento.
Objetivo
Machine learning and data science are areas of tremendous progress over the last decade, leading to exciting research developments, and significant practical impact. Broadly, progress in this area has been enabled by the rapidly increasing availability of data, by better algorithms, and by large-scale platforms enabling efficient computation on immense datasets. While it is reasonable to expect that the first two trends will continue for the foreseeable future, the same cannot be said of the third trend, of continually increasing computational performance. Increasing computational demands place immense pressure on algorithms and systems to scale, while the performance limits of traditional computing paradigms are becoming increasingly apparent. Thus, the question of building algorithms and systems for scalable machine learning is extremely pressing. The project will take a decisive step to answer this challenge, developing new abstractions, algorithms and system support for scalable machine learning. In a nutshell, the line of approach is elastic coordination: allowing machine learning algorithms to approximate and/or randomize their synchronization and communication semantics, in a structured, controlled fashion, to achieve scalability. The project exploits the insight that many such algorithms are inherently stochastic, and hence robust to inconsistencies. My thesis is that elastic coordination can lead to significant, consistent performance improvements across a wide range of applications, while guaranteeing provably correct answers. ScaleML will apply elastic coordination to two specific relevant scenarios: scalability inside a single multi-threaded machine, and scalability across networks of machines.
Conceptually, the project’s impact is in providing a set of new design principles and algorithms for scalable computation. It will develop these insights into a set of tools and working examples for scalable distributed machine learning.
Palabras clave
Programa(s)
Régimen de financiación
ERC-STG - Starting GrantInstitución de acogida
3400 Klosterneuburg
Austria