CORDIS - Risultati della ricerca dell’UE
CORDIS

Efficient sequential decision making under uncertainty

Article Category

Article available in the following languages:

Prendere decisioni in un ambiente incerto

Un progetto finanziato dall'UE ha sviluppato metodi computazionali efficaci per l'apprendimento automatico e il processo decisionale in condizioni di incertezza. Queste tecniche possono essere utilizzate in molte applicazioni, come la sicurezza in rete, la robotica e la gestione del traffico.

Economia digitale icon Economia digitale

La teoria delle decisioni statistiche offre un quadro di riferimento per trovare soluzioni ottimali, ma, in molti casi, l'inferenza e la pianificazione esatte sono intrattabili. Contribuire a superare questi ostacoli era l'obiettivo del progetto ESDEMUU ("Efficient sequential decision making under uncertainty"), finanziato dall'UE. Il progetto ha cercato di sviluppare metodi approssimativi efficienti per l'apprendimento e la decisione quasi ottimali in questi problemi. Un puzzle interessante riguarda l'apprendimento per rinforzo, in cui l'agente intelligente o che apprende deve imparare ad agire in un ambiente sconosciuto, solo attraverso l'interazione, per massimizzare la ricompensa totale ottenuta durante la sua vita. Tuttavia, una particolare difficoltà sorge quando la distribuzione parametro è difficile da calcolare. Per questo motivo, il progetto ha sviluppato modelli che possono essere utilizzati con funzioni di valore distribuito, in modo da eseguire il processo decisionale in questi specifici problemi di apprendimento. Un altro problema decisionale sequenziale implica imparare ad agire attraverso dimostrazioni. Qui, il progetto ha esteso una generalizzazione di principio al problema dell'apprendimento da più docenti con diverse preferenze. Nel sistema DCOP (Distributed Constraint Optimization Problem), ESDEMUU ha risolto il problema di trovare una politica ottimale per un gruppo di agenti comunicanti solo con comunicazione limitata. Ha sviluppato algoritmi in grado di risolvere questi problemi in modo efficiente. Infine, il progetto ora completato ha proposto un nuovo quadro per modellare i processi di ricompensa radi, dove un agente di apprendimento è collocato in un ambiente sconosciuto e si trova ad affrontare una serie di obiettivi opposti per la selezione. L'utilizzo principale di questo approccio saranno le applicazioni delle tecnologie dell'informazione e della comunicazione (TIC) quali la sicurezza e il rilevamento delle intrusioni di rete.

Scopri altri articoli nello stesso settore di applicazione