Descripción del proyecto
Aprendizaje automático para descubrir nuevas estructuras químicas tóxicas
Los estudios de exposición son una actividad fundamental de la investigación química. Se han identificado cerca de medio millón de sustancias químicas pertinentes para dichos estudios, y una cantidad notable de sus productos de transformación coexisten en el medio ambiente. Por desgracia, a pesar de esa amplia variedad, tan solo unas pocas de estas estructuras químicas se pueden crear «in silico», evaluar analíticamente y validar. Las bases de datos y los modelos de aprendizaje automático actuales se basan en estas estructuras químicas existentes. El proyecto LearningStructurE, financiado por el Consejo Europeo de Investigación, tiene por objeto revolucionar este campo mediante la combinación del aprendizaje automático con tecnologías novedosas para, de este modo, identificar nuevas estructuras químicas tóxicas. Esta iniciativa pretende agilizar el proceso de descubrimiento de nuevas estructuras químicas, haciéndolo más accesible, frecuente y eficiente.
Objetivo
Nearly half a million known chemicals have been deemed relevant for exposure studies and an even larger number of their transformation products are likely to co-occur in the environment. This mind-blowing number of possible chemical structures makes it impossible to in-silico generate all these structures, let alone synthesise and analytically confirm them, thereby limiting the discovery of novel chemicals. Today, the structural elucidation of chemicals detected with high resolution mass spectrometry relies on databases and machine learning models trained on the known chemical space. Both are fundamentally ill-suited for discovering novel chemical structures. As a result, only a few percent of the toxic activity of the environmental samples is explained by the currently known and monitored chemicals. It is crucial to access the novel chemical space to improve our understanding of the origin, fate, and impact of these chemicals.
The aim of LearningStructurE is to turn the discovery of novel chemical structures from serendipity to routine. As a steppingstone in this pursuit, I will combine the fundamental understanding of chromatography and high resolution mass spectrometry with machine learning to pinpoint novel toxic chemical structures based on their empirical analytical information. To significantly advance the predictive power of machine learning models for empirical analytical information, I will take advantage of the candidate structures as a sample specific training set for machine learning models. The improved predictive power will feed into in-silico structure generation, allowing to elucidate the structure directly from the empirical analytical information.
LearningStructurE will pave the way for exploration of the unknown chemical space detected from environmental samples, and thereby improve our understanding of the emissions, chemical processes transforming the emitted chemicals, and close the gap in measured and explained toxicity.
Ámbito científico (EuroSciVoc)
CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural.
CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural.
Para utilizar esta función, debe iniciar sesión o registrarse
Palabras clave
Programa(s)
- HORIZON.1.1 - European Research Council (ERC) Main Programme
Régimen de financiación
HORIZON-ERC - HORIZON ERC GrantsInstitución de acogida
10691 Stockholm
Suecia