Sustainable Training of Code Language Models through Data Refinement

Información del proyecto

condenSE

Identificador del acuerdo de subvención: 101151798

DOI

10.3030/101151798

Fecha de la firma de la CE 6 Marzo 2024

Fecha de inicio 1 Abril 2024

Fecha de finalización 31 Marzo 2026

Financiado con arreglo a

Marie Skłodowska-Curie Actions (MSCA)

Coste total

Sin datos

Aportación de la UE

€ 210 911,04

Coordinado por

SIMULA RESEARCH LABORATORY AS
Norway

Descripción del proyecto

Una solución para entrenar de forma sostenible modelos de lenguaje de código

A medida que los grandes modelos de lenguaje (LLM, por sus siglas en inglés) transforman la ingeniería del «software», su consumo energético se convierte en un problema acuciante. Dichos modelos, entrenados en vastos conjuntos de datos de plataformas como GitHub, ofrecen una ayuda inestimable, pero a un coste medioambiental significativo. El gran volumen de datos necesarios genera importantes emisiones de CO2, lo cual pone en entredicho la sostenibilidad de los LLM. Con el apoyo de las acciones Marie Skłodowska-Curie, el equipo del proyecto condenSE propone un método para reducir los datos utilizados en el entrenamiento de modelos de lenguaje de código. En concreto, la reducción pretende disminuir el consumo de energía sin comprometer la eficacia. Su método innovador está en consonancia con los objetivos del Pacto Verde Europeo y los Objetivos de Desarrollo Sostenible de las Naciones Unidas. La solución del proyecto es un paso hacia un futuro tecnológico más ecológico.

Objetivo

"Large language models (LLMs) have gained widespread attention and user adoption. These models, when trained on source code from platforms like GitHub, acquire a deep understanding of both the semantic and syntactic structures of code (i.e. code language models or CLMs). This understanding has paved the way for significant advancements in software engineering, offering developers valuable assistance in labor-intensive tasks like bug fixing and code writing. While CLMs offer tremendous assistance in software engineering tasks, their massive data requirements result in substantial energy consumption and CO2 emissions.

This proposal challenges the conventional wisdom that ""more data is better"" and instead advocates for a refined approach to data in the training of CLMs. We propose that by intentionally decreasing training data volume while simultaneously enhancing data quality through data refinement techniques, we can reduce energy consumption while maintaining or even improving performance on software engineering tasks. The condenSE project represents a pioneering effort to advance sustainable training practices for CLMs. Unlike existing methods, which are often non-systematic or limited to natural languages, condenSE promises a comprehensive approach to achieve sustainability via data refinement for CLMs.

This initiative is well-aligned with the EU Green Deal initiative and UN Sustainable Development Goals, and the increasing attention for LLMs and CLMs means that now is the right time to address their sustainability. The proposal's potential for success is further strengthened by the host institution's international standing, providing a wide range of collaborative opportunities, as well as by the complementary expertise of the applicant and supervisor, spanning the fields of software engineering, machine learning, dataset creation, and language model application."

Ámbito científico (EuroSciVoc)

CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural. Véas: El vocabulario científico europeo..

ciencias naturales informática y ciencias de la información software

Palabras clave

Palabras clave del proyecto indicadas por el coordinador del proyecto. No confundir con la taxonomía EuroSciVoc (Ámbito científico).

Programa(s)

Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.

HORIZON.1.2 - Marie Skłodowska-Curie Actions (MSCA) PROGRAMA PRINCIPAL
Ver todos los proyectos financiados en el marco de este programa

Tema(s)

Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.

HORIZON-MSCA-2023-PF-01-01 - MSCA Postdoctoral Fellowships 2023
Ver todos los proyectos financiados en el marco de este tema

Régimen de financiación

Régimen de financiación (o «Tipo de acción») dentro de un programa con características comunes. Especifica: el alcance de lo que se financia; el porcentaje de reembolso; los criterios específicos de evaluación para optar a la financiación; y el uso de formas simplificadas de costes como los importes a tanto alzado.

HORIZON-TMA-MSCA-PF-EF - HORIZON TMA MSCA Postdoctoral Fellowships - European Fellowships

Ver todos los proyectos financiados en el marco de este régimen de financiación

Convocatoria de propuestas

Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.

(se abrirá en una nueva ventana) HORIZON-MSCA-2023-PF-01

Ver todos los proyectos financiados en el marco de esta convocatoria

Coordinador

SIMULA RESEARCH LABORATORY AS

Aportación neta de la UEn

€ 210 911,04

Dirección

KRISTIAN AUGUST GATE 23
0164 OSLO
Noruega

Región

Norge Oslo og Viken Oslo

Tipo de actividad

Research Organisations

Enlaces

Contactar con la organización Sitio web

Participación en los programas de I+D de la UE

Red de colaboración de HORIZON

Coste total

Sin datos

Descripción del proyecto

Una solución para entrenar de forma sostenible modelos de lenguaje de código

Objetivo

Ámbito científico (EuroSciVoc)

CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural. Véas: El vocabulario científico europeo..

Palabras clave

Palabras clave del proyecto indicadas por el coordinador del proyecto. No confundir con la taxonomía EuroSciVoc (Ámbito científico).

Programa(s)

Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.

Tema(s)

Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.

Convocatoria de propuestas

Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.

Coordinador

Compartir esta página Compartir esta página en las redes sociales

Descargar Descargar el contenido de la página

Sustainable Training of Code Language Models through Data Refinement

Descripción del proyecto

Una solución para entrenar de forma sostenible modelos de lenguaje de código

Objetivo

Ámbito científico (EuroSciVoc) CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural. Véas: El vocabulario científico europeo..

Palabras clave Palabras clave del proyecto indicadas por el coordinador del proyecto. No confundir con la taxonomía EuroSciVoc (Ámbito científico).

Programa(s) Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.

Tema(s) Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.

Convocatoria de propuestas Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.

Coordinador

Compartir esta página Compartir esta página en las redes sociales

Descargar Descargar el contenido de la página

Ámbito científico (EuroSciVoc)

CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural. Véas: El vocabulario científico europeo..

Palabras clave

Palabras clave del proyecto indicadas por el coordinador del proyecto. No confundir con la taxonomía EuroSciVoc (Ámbito científico).

Programa(s)

Programas de financiación plurianuales que definen las prioridades de la UE en materia de investigación e innovación.

Tema(s)

Las convocatorias de propuestas se dividen en temas. Un tema define una materia o área específica para la que los solicitantes pueden presentar propuestas. La descripción de un tema comprende su alcance específico y la repercusión prevista del proyecto financiado.

Convocatoria de propuestas

Procedimiento para invitar a los solicitantes a presentar propuestas de proyectos con el objetivo de obtener financiación de la UE.