Skip to main content
Vai all'homepage della Commissione europea (si apre in una nuova finestra)
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS

Sustainable Training of Code Language Models through Data Refinement

Descrizione del progetto

Una soluzione per addestrare in modo sostenibile i modelli linguistici di codice

Poiché i modelli linguistici di grandi dimensioni (LLM) trasformano l’ingegneria del software, il loro consumo energetico diventa un problema urgente. Questi modelli, addestrati su vasti set di dati provenienti da piattaforme come GitHub, offrono un’assistenza preziosa, ma a un costo ambientale significativo. La mole di dati richiesti comporta notevoli emissioni di CO2, mettendo in discussione la sostenibilità degli LLM. Sostenuto dal programma di azioni Marie Skłodowska-Curie (MSCA), il progetto condenSE propone un approccio per ridurre i dati utilizzati per l’addestramento dei modelli linguistici di codice. In particolare, la riduzione intende diminuire il consumo di energia senza compromettere l’efficacia. Il suo approccio innovativo è in linea con gli obiettivi di Green Deal dell’UE e con gli obiettivi di sviluppo sostenibile dell’ONU. La soluzione del progetto è un passo avanti verso un futuro tecnologico più verde.

Obiettivo

"Large language models (LLMs) have gained widespread attention and user adoption. These models, when trained on source code from platforms like GitHub, acquire a deep understanding of both the semantic and syntactic structures of code (i.e. code language models or CLMs). This understanding has paved the way for significant advancements in software engineering, offering developers valuable assistance in labor-intensive tasks like bug fixing and code writing. While CLMs offer tremendous assistance in software engineering tasks, their massive data requirements result in substantial energy consumption and CO2 emissions.

This proposal challenges the conventional wisdom that ""more data is better"" and instead advocates for a refined approach to data in the training of CLMs. We propose that by intentionally decreasing training data volume while simultaneously enhancing data quality through data refinement techniques, we can reduce energy consumption while maintaining or even improving performance on software engineering tasks. The condenSE project represents a pioneering effort to advance sustainable training practices for CLMs. Unlike existing methods, which are often non-systematic or limited to natural languages, condenSE promises a comprehensive approach to achieve sustainability via data refinement for CLMs.

This initiative is well-aligned with the EU Green Deal initiative and UN Sustainable Development Goals, and the increasing attention for LLMs and CLMs means that now is the right time to address their sustainability. The proposal's potential for success is further strengthened by the host institution's international standing, providing a wide range of collaborative opportunities, as well as by the complementary expertise of the applicant and supervisor, spanning the fields of software engineering, machine learning, dataset creation, and language model application."

Campo scientifico (EuroSciVoc)

CORDIS classifica i progetti con EuroSciVoc, una tassonomia multilingue dei campi scientifici, attraverso un processo semi-automatico basato su tecniche NLP. Cfr.: Il Vocabolario Scientifico Europeo.

È necessario effettuare l’accesso o registrarsi per utilizzare questa funzione

Parole chiave

Parole chiave del progetto, indicate dal coordinatore del progetto. Da non confondere con la tassonomia EuroSciVoc (campo scientifico).

Programma(i)

Programmi di finanziamento pluriennali che definiscono le priorità dell’UE in materia di ricerca e innovazione.

Argomento(i)

Gli inviti a presentare proposte sono suddivisi per argomenti. Un argomento definisce un’area o un tema specifico per il quale i candidati possono presentare proposte. La descrizione di un argomento comprende il suo ambito specifico e l’impatto previsto del progetto finanziato.

Meccanismo di finanziamento

Meccanismo di finanziamento (o «Tipo di azione») all’interno di un programma con caratteristiche comuni. Specifica: l’ambito di ciò che viene finanziato; il tasso di rimborso; i criteri di valutazione specifici per qualificarsi per il finanziamento; l’uso di forme semplificate di costi come gli importi forfettari.

HORIZON-TMA-MSCA-PF-EF - HORIZON TMA MSCA Postdoctoral Fellowships - European Fellowships

Vedi tutti i progetti finanziati nell’ambito di questo schema di finanziamento

Invito a presentare proposte

Procedura per invitare i candidati a presentare proposte di progetti, con l’obiettivo di ricevere finanziamenti dall’UE.

(si apre in una nuova finestra) HORIZON-MSCA-2023-PF-01

Vedi tutti i progetti finanziati nell’ambito del bando

Coordinatore

SIMULA RESEARCH LABORATORY AS
Contributo netto dell'UE

Contributo finanziario netto dell’UE. La somma di denaro che il partecipante riceve, decurtata dal contributo dell’UE alla terza parte collegata. Tiene conto della distribuzione del contributo finanziario dell’UE tra i beneficiari diretti del progetto e altri tipi di partecipanti, come i partecipanti terzi.

€ 210 911,04
Indirizzo
KRISTIAN AUGUST GATE 23
0164 OSLO
Norvegia

Mostra sulla mappa

Regione
Norge Oslo og Viken Oslo
Tipo di attività
Research Organisations
Collegamenti
Costo totale

I costi totali sostenuti dall’organizzazione per partecipare al progetto, compresi i costi diretti e indiretti. Questo importo è un sottoinsieme del bilancio complessivo del progetto.

Nessun dato
Il mio fascicolo 0 0