CORDIS - Wyniki badań wspieranych przez UE
CORDIS

Plural Reinforcement Learning

Article Category

Article available in the following languages:

Uczenie się w dynamicznych środowiskach

Projekt finansowany przez UE ustanowił nowy paradygmat nauki w dużych, dynamicznych środowiskach związanych z elementami niepewności.

Technologie przemysłowe icon Technologie przemysłowe

Ogólnym celem projektu "Plural reinforcement learning" (PLURELEARN) było opracowanie algorytmów, teorii i zastosowań wykorzystujących dużą liczbę metod i modeli nauczania w synergiczny sposób. Aby zrealizować to zamierzenie, zespół projektowy zidentyfikował trzy cele: opracowanie metody nauczania łączącej uczenie się od nauczyciela i uczenie się metodą prób i błędów; opracowanie metodologii odkrywania struktury dla wnioskowania na temat niepewności w wielowymiarowych procesach Markowa; opracowywanie podejścia do wyboru algorytmu i minimalnej strategii. Zespół poczynił postępy w realizacji tych celów. Badania w ramach pierwszego celu zaowocowały artykułami poświęconymi wykorzystaniu nauczyciela lub porad ekspertów w paradygmatach uczenia się przez wzmacnianie. Prace ukazały nowe algorytmy dla problemu uczenia się z wielu źródeł oraz sposób działania tych algorytmów w zastosowaniach na średnią skalę. Problem odkrywania struktury (cel 2) okazał się bardzo skomplikowany. Po opracowaniu teoretycznych i stosowanych aspektów wyboru modelu i odrywania struktury ukazującej trudność wykrywania struktury dynamicznej, zespół opracował dwa rozwiązania dla ograniczenia ryzyk. Pierwsze rozwiązanie bazuje na gradientach polityki i jest nastawione na problemy, w których dostępny jest symulator. Drugie rozwiązanie bazuje na solidnym podejściu optymalizacyjnym, skupiającym się na kilku niepewnościach między stanami. W celu realizacji trzeciego założenia badacze zaprojektowali dwie strategie mogące prowadzić do zwiększenia wydajności. Pierwsza strategia polegała na zmodyfikowaniu opcji, a następnie wygenerowaniu nowych, udoskonalonych opcji. Druga strategia polegała na wykorzystaniu "losowo wygenerowanych" opcji dla usprawnienia planowania i uczenia się. W ramach projektu udało się opracować nowe ramy dla planowania i uczenia się w zmiennych środowiskach opartych na danych. Badania mogą otworzyć nowe możliwości wielkoskalowej optymalizacji dynamicznych systemów o potencjalnie znaczącym wpływie na rozwiązywalne problemy.

Słowa kluczowe

Nauczanie, dynamiczne środowiska, niepewność, uczenie się przez wzmacnianie

Znajdź inne artykuły w tej samej dziedzinie zastosowania