Descripción del proyecto
Desarrollar algoritmos para la inferencia de datos de alta dimensión
La avanzada tecnología informática permite recopilar y almacenar ingentes cantidades de datos. En muchas aplicaciones científicas, en las que tanto los datos como el aprendizaje automático son de alta dimensión, resulta cada vez más difícil interpretar la información y extraer inferencias precisas usando la teoría estadística convencional. Ello plantea un reto especial en las aplicaciones médicas. Para abordar este problema, el proyecto INF_2, financiado por el Consejo Europeo de Investigación, pretende desarrollar un marco teórico para la inferencia de altas dimensiones en el aprendizaje automático y la ciencia de datos. Utilizando un método de campo medio, determinará los límites fundamentales, o requisitos mínimos de datos, de la inferencia e ideará algoritmos que funcionen eficazmente con la mínima cantidad de datos. A continuación, esos principios se adaptarán a aplicaciones reales en estudios de asociación de todo el genoma.
Objetivo
Extracting information from data is the key challenge of our time, and in many applications (e.g. genome-wide association studies, data compression, and virtual assistants such as ChatGPT) both the data and the machine learning model used to extract information are increasingly high-dimensional. As traditional statistical theory is ill-equipped to face this explosion in the dimensionality of the problem, machine learning is now predominantly experimental. However, empirical approaches come with huge costs affordable only to large companies, and they lack interpretability, which is especially troublesome in medical applications. To address these issues, the INF^2 project develops information-theoretically principled methods for high-dimensional inference in machine learning and data science. The key insight is that, via a “mean-field” approach, high-dimensional quantities are well approximated by low-dimensional ones and then characterized exactly. Leveraging this characterization, we will (i) establish the fundamental limits of inference, i.e. the minimal amount of data necessary to solve the problem, and (ii) design efficient algorithms requiring only the minimal amount of data. The challenge we tackle is to apply this paradigm to practical settings, in which data are structured and heterogeneous (as in genome-wide association studies), and models consist of complex architectures tailored to applications (auto-encoders for data compression, and transformers for ChatGPT). Through a novel analysis of spectral methods, approximate message passing and gradient descent, INF^2 builds a theoretical framework having conceptual impact, as well as vast applicability, in machine learning and information theory. This framework is then brought to the real world via applications in genome-wide association studies. Broadly, our results enable the principled design of machine learning algorithms and models, drastically reducing costs and providing interpretable solutions.
Palabras clave
Palabras clave del proyecto indicadas por el coordinador del proyecto. No confundir con la taxonomía EuroSciVoc (Ámbito científico).
Palabras clave del proyecto indicadas por el coordinador del proyecto. No confundir con la taxonomía EuroSciVoc (Ámbito científico).
Programa(s)
Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.
Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.
-
HORIZON.1.1 - European Research Council (ERC)
PROGRAMA PRINCIPAL
Ver todos los proyectos financiados en el marco de este programa
Tema(s)
Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.
Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.
Régimen de financiación
Régimen de financiación (o «Tipo de acción») dentro de un programa con características comunes. Especifica: el alcance de lo que se financia; el porcentaje de reembolso; los criterios específicos de evaluación para optar a la financiación; y el uso de formas simplificadas de costes como los importes a tanto alzado.
Régimen de financiación (o «Tipo de acción») dentro de un programa con características comunes. Especifica: el alcance de lo que se financia; el porcentaje de reembolso; los criterios específicos de evaluación para optar a la financiación; y el uso de formas simplificadas de costes como los importes a tanto alzado.
HORIZON-ERC - HORIZON ERC Grants
Ver todos los proyectos financiados en el marco de este régimen de financiación
Convocatoria de propuestas
Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.
Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.
(se abrirá en una nueva ventana) ERC-2024-STG
Ver todos los proyectos financiados en el marco de esta convocatoriaInstitución de acogida
Aportación financiera neta de la UE. Es la suma de dinero que recibe el participante, deducida la aportación de la UE a su tercero vinculado. Considera la distribución de la aportación financiera de la UE entre los beneficiarios directos del proyecto y otros tipos de participantes, como los terceros participantes.
3400 KLOSTERNEUBURG
Austria
Los costes totales en que ha incurrido esta organización para participar en el proyecto, incluidos los costes directos e indirectos. Este importe es un subconjunto del presupuesto total del proyecto.