L’apprendimento in ambienti dinamici
L’obiettivo generale del progetto PLURELEARN (“Plural reinforcement learning”) era di sviluppare algoritmi, teorie e applicazioni che utilizzano numerosi approcci e modelli di apprendimento in maniera singergica. Per raggiungere il suo scopo, il progetto ha identificato tre obiettivi: sviluppare un approccio didattico che combina l’apprendimento da un insegnante con l’apprendimento tramite sperimentazione ed errori, prevedere una metodologia di scoperta della struttura per il ragionamento sull’incertezza in processi Markov di grandi dimensioni e sviluppare approcci per la selezione di algoritmi e mini-strategie. Il team ha compiuto progressi nel raggiungimento di tali obiettivi. La ricerca relativa al primo obiettivo ha prodotto relazioni su come utilizzare i consigli di tutor o esperti nei paradigmi dell’apprendimento per rinforzo. Il lavoro ha mostrato nuovi algoritmi per il problema dell’apprendimento da fonti multiple, nonché come gli algoritmi funzionano in applicazioni di medie dimensioni. Il problema della scoperta della struttura (obiettivo 2) si è rivelato alquanto complesso. Dopo aver sviluppato gli aspetti teorici e applicati della selezione del modello e della scoperta della struttura, evidenziando la difficoltà di rilevare la struttura dinamica, il team ha sviluppato due approcci per ridurre il rischio. Il primo è basato su gradienti politici e impostato su problemi per i quali è disponibile un simulatore. Il secondo è basato su un approccio di ottimizzazione, in cui l’attenzione è concentrata su alcune incertezze tra gli stati. Per il terzo obiettivo, i ricercatori hanno progettato due strategie che potrebbero migliorare le prestazioni. La prima era di modificare le opzioni e poi generare opzioni nuove e migliorate. La seconda era un modo di utilizzare le opzioni “generate casualmente” per velocizzare la programmazione e l’apprendimento. Il progetto ha avuto buon esito nel sviluppare un nuovo quadro per la programmazione e l’apprendimento in ambienti basati sui dati e mutevoli. La ricerca potrebbe aprire opportunità per l’ottimizzazione su larga scala dei sistemi dinamici che potrebbero avere un notevole impatto sulla quantità di problemi che potrebbero essere risolti.