Skip to main content
Vai all'homepage della Commissione europea (si apre in una nuova finestra)
italiano italiano
CORDIS - Risultati della ricerca dell’UE
CORDIS
Data-Efficient Scalable Reinforcement Learning for Practical Robotic Environments

Article Category

Article available in the following languages:

Progettare algoritmi per dati più complessi

I ricercatori dell’apprendimento automatico spesso devono superare il passaggio «dalla simulazione alla realtà», dove funzionalità algoritmiche realizzate in simulazioni a computer possono essere replicate in prestazioni di prova. DESIRE ha prodotto un solido algoritmo basato sui dati per il processo decisionale proprio per raggiungere questo scopo.

I progressi computazionali, come il gioco AlphaGo(si apre in una nuova finestra), si basano su una grossa quantità di dati e ne generano al contempo altrettanti. Per raccogliere questo volume di dati, i ricercatori si sono affidati agli algoritmi di apprendimento automatico sviluppati da tecniche quali l’apprendimento per rinforzo(si apre in una nuova finestra), unitamente alle scoperte dell’intelligenza artificiale (IA). Tuttavia, mentre questi algoritmi possono essere efficaci nel quadro di simulazioni, spesso si dimostrano deludenti nel mondo reale. Questi insuccessi nella prestazioni riguardano aree ad alta posta in gioco come la robotica dove, per ragioni di praticità e di costi, è possibile eseguire solo un numero limitato di sperimentazioni. Il progetto DESIRE, con il sostegno dell’UE, si prefigge di migliorare la robustezza degli algoritmi di ottimizzazione, apprendimento e controllo alla base di molteplici innovazioni impegnate nel campo del controllo automatizzato.

Kernel-DRO

Uno dei principali problemi nel passaggio dalla simulazione alla realtà è un fenomeno di apprendimento automatico chiamato «sfasamento di distribuzione». In parole povere, si verifica quando compare una discrepanza tra la distribuzione dei dati nei set di dati utilizzati per l’addestramento e quelli utilizzati per i test nel mondo reale. «Questo avviene di solito perché i set di dati dei test si dimostrano troppo semplicistici nella loro rappresentazione delle condizioni del mondo reale», spiega il ricercatore Jia-Jie Zhu(si apre in una nuova finestra), che ha ricevuto il sostegno del programma di azioni Marie Skłodowska-Curie(si apre in una nuova finestra). «Lo sfasamento di distribuzione è stato uno dei principali problemi che ha afflitto gli algoritmi di apprendimento e di controllo e uno scoglio insormontabile al progresso», aggiunge Zhu, al lavoro presso l’Istituto per Sistemi d’intelligenza Max Planck(si apre in una nuova finestra) che ha ospitato il progetto. Il progetto DESIRE ha attinto dai cosiddetti metodi di apprendimento basati su kernel(si apre in una nuova finestra) per ridurre lo sfasamento di distribuzione. Si tratta di calcoli che rendono gli algoritmi più affidabili riconoscendo dei modelli nei dati, per poi identificare e organizzare relazioni con tali dati in base a funzionalità predeterminate come le correlazioni o le classificazioni. Questo ha permesso a DESIRE di creare un algoritmo che utilizza un’ottimizzazione del kernel robusta a livello di distribuzione (Kernel-DRO), in cui le decisioni, come i comandi di controllo per i robot, sono state determinate in modo robusto.

Ampia applicabilità

Anche se il lavoro di DESIRE è teorico, oltre a contribuire alla letteratura(si apre in una nuova finestra) in materia di teoria di ottimizzazione matematica, controllo e apprendimento automatico, ha diverse implicazioni molto pratiche. Infatti, un punto di forza della soluzione Kernel-DRO del team è proprio questa ampia applicabilità. «Molte delle mansioni di apprendimento odierne soffrono di ambiguità nella distribuzione dei dati. Crediamo che i professionisti dell’industria o del commercio che cercano di migliorare la robustezza del loro apprendimento automatico possano facilmente applicare il nostro algoritmo», spiega Zhu. Andando oltre nel suo lavoro, Zhu mira ora a creare algoritmi di apprendimento su più ampia scala che possano soddisfare un maggior numero di input di dati casuali, adatti ad applicazioni industriali. Ad esempio, il principio della robustezza dei dati viene applicato al controllo predittivo dei modelli, un metodo di controllo altamente efficace nonché utile in applicazioni critiche per la sicurezza, come il controllo del volo, il controllo dei processi chimici e la robotica.

Scopri altri articoli nello stesso settore di applicazione