Skip to main content
Vai all'homepage della Commissione europea (si apre in una nuova finestra)
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS
Contenuto archiviato il 2024-06-18
Plural Reinforcement Learning

Article Category

Article available in the following languages:

L’apprendimento in ambienti dinamici

Un progetto finanziato dall’UE ha istituito un nuovo paradigma per l’apprendimento in ambienti dinamici su larga scala associati a elementi di incertezza.

L’obiettivo generale del progetto PLURELEARN (“Plural reinforcement learning”) era di sviluppare algoritmi, teorie e applicazioni che utilizzano numerosi approcci e modelli di apprendimento in maniera singergica. Per raggiungere il suo scopo, il progetto ha identificato tre obiettivi: sviluppare un approccio didattico che combina l’apprendimento da un insegnante con l’apprendimento tramite sperimentazione ed errori, prevedere una metodologia di scoperta della struttura per il ragionamento sull’incertezza in processi Markov di grandi dimensioni e sviluppare approcci per la selezione di algoritmi e mini-strategie. Il team ha compiuto progressi nel raggiungimento di tali obiettivi. La ricerca relativa al primo obiettivo ha prodotto relazioni su come utilizzare i consigli di tutor o esperti nei paradigmi dell’apprendimento per rinforzo. Il lavoro ha mostrato nuovi algoritmi per il problema dell’apprendimento da fonti multiple, nonché come gli algoritmi funzionano in applicazioni di medie dimensioni. Il problema della scoperta della struttura (obiettivo 2) si è rivelato alquanto complesso. Dopo aver sviluppato gli aspetti teorici e applicati della selezione del modello e della scoperta della struttura, evidenziando la difficoltà di rilevare la struttura dinamica, il team ha sviluppato due approcci per ridurre il rischio. Il primo è basato su gradienti politici e impostato su problemi per i quali è disponibile un simulatore. Il secondo è basato su un approccio di ottimizzazione, in cui l’attenzione è concentrata su alcune incertezze tra gli stati. Per il terzo obiettivo, i ricercatori hanno progettato due strategie che potrebbero migliorare le prestazioni. La prima era di modificare le opzioni e poi generare opzioni nuove e migliorate. La seconda era un modo di utilizzare le opzioni “generate casualmente” per velocizzare la programmazione e l’apprendimento. Il progetto ha avuto buon esito nel sviluppare un nuovo quadro per la programmazione e l’apprendimento in ambienti basati sui dati e mutevoli. La ricerca potrebbe aprire opportunità per l’ottimizzazione su larga scala dei sistemi dinamici che potrebbero avere un notevole impatto sulla quantità di problemi che potrebbero essere risolti.

Scopri altri articoli nello stesso settore di applicazione

Il mio fascicolo 0 0