CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Efficient sequential decision making under uncertainty

Article Category

Article available in the following languages:

Podejmowanie decyzji w warunkach niepewności

W ramach finansowanego ze środków UE projektu opracowano skuteczne metody obliczeniowe do zautomatyzowanego uczenia się i podejmowania decyzji w warunkach niepewności. Techniki te można stosować w wielu dziedzinach, na przykład zabezpieczeniach sieci, robotyce i kontroli ruchu.

Gospodarka cyfrowa icon Gospodarka cyfrowa

Statystyczna teoria decyzji oferuje ramy do znajdywania optymalnych rozwiązań, ale w wielu przypadkach trudno jest kontrolować dokładne wnioski i planowanie. Pomoc w przezwyciężeniu tych ograniczeń była calem finansowanego przez UE projektu ESDEMUU ("Efficient sequential decision making under uncertainty"). Projekt miał doprowadzić do powstania skutecznych metod aproksymacji i uzyskania niemal optymalnych sposobów uczenia się i podejmowania decyzji w obliczu takich problemów. Jedna z interesujących zagadek dotyczy uczenia się przez wzmacnianie, gdzie inteligentny agent musi uczyć się, jak działać w nieznanym środowisku, jedynie poprzez interakcję, aby zmaksymalizować całkowite korzyści uzyskiwane w ciągu całego okresu życiowego. Powstaje jednak jeden specyficzny problem, gdy rozmieszczenie parametrów jest trudne do obliczenia. Z tego powodu, uczestnicy projektu opracowali modele, które można wykorzystać z funkcjami wartości rozproszonych do podejmowania decyzji w tych specyficznych sytuacjach. Inny problem dotyczący sekwencyjnego podejmowania decyzji dotyczy uczenia się sposobu działania na podstawie demonstracji. Tutaj rozszerzono generalizację o problem uczenia się od wielu nauczycieli o różnych preferencjach. W systemie rozproszonej optymalizacji ograniczeń (DCOP) uczestnicy projektu ESDEMUU rozwiązali problem znalezienia optymalnej reguły dla grupy agentów komunikujących się przy ograniczonej komunikacji. Opracowano algorytmy pozwalające skutecznie rozwiązywać takie problemy. Ponadto, w ramach zakończonego już projektu zaproponowano nowe ramy modelowania rzadkich korzyści, w których uczący się agent umieszczany jest w nieznanym środowisku i stawiany wobec szeregu przeciwstawnych celów, spośród których ma dokonać wyboru. Metody te mogą znaleźć zastosowanie przede wszystkim w technologiach informacyjno-komunikacyjnych, takich jak zabezpieczenia i wykrywanie ataków w sieci.

Znajdź inne artykuły w tej samej dziedzinie zastosowania