Skip to main content
Weiter zur Homepage der Europäischen Kommission (öffnet in neuem Fenster)
Deutsch Deutsch
CORDIS - Forschungsergebnisse der EU
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary
Inhalt archiviert am 2024-06-18
Plural Reinforcement Learning

Article Category

Article available in the following languages:

Lernen in dynamischen Umgebungen

Ein EU-finanziertes Projekt etablierte ein neues Paradigma für das Lernen in großen, dynamischen Umgebungen mit entsprechenden Unsicherheitsfaktoren.

Das übergeordnete Ziel des Projekts PLURELEARN ("Plural reinforcement learning") war die Entwicklung von Algorithmen, Theorie und Anwendungen, die eine große Anzahl von Lernansätzen und Modellen auf eine synergetische Art und Weise nutzen. Das Projektteam identifizierte drei Teilziele: Entwicklung eines Lernansatzes, der das Lernen von einem Lehrer und das Lernen​durch Versuch und Irrtum kombiniert, Entwicklung einer Strukturerkennungsmethode für Untersuchungen der Unsicherheit in hochdimensionalen Markov-Prozessen sowie die Entwicklung von Konzepten für die Auswahl eines Algorithmus und von Mini-Strategien. Das Team kann bei der Verwirklichung dieser Ziele bereits Erfolge vorweisen. Die Forschungen zu dem ersten Ziel führten zu Artikeln darüber, wie man einen Tutor oder kompetente Beratung mit Paradigmen des bestärkenden Lernens kombinieren kann. Die Arbeiten führte zu neuen Algorithmen für das Problem des Lernens von mehreren Quellen sowie zu Beschreibungen, wie die Algorithmen in mittelgroßen Anwendungen funktionieren. Das Problem der Strukturerkennung (Ziel 2) erwies sich als sehr komplex. Nach der Entwicklung von theoretischen und praktischen Aspekten für Modellauswahl und Strukturerkennung mit Schwierigkeiten bei der Erfassung einer dynamischen Struktur entwickelte das Team zwei Ansätze zur Risikominderung. Der erste basiert auf Strategieabstufungen und wird zusammen mit einem Simulator eingesetzt. Der zweite baut auf einem stabilen Optimierungsansatz auf, wo der Fokus auf ein paar Unsicherheiten zwischen den Stadien liegt. Für das dritte Ziel entwarfen die Forscher zwei Strategien, die zu einer verbesserten Leistung führen können. Mit der ersten verändert man Optionen und schafft dann neue, verbesserte Möglichkeiten. Die zweite ist ein Weg, um "zufällig generierte" Optionen für schnelleres Planen und Lernen zu nutzen. Das Projekt konnte einen neuen Rahmen für die Planung und das Lernen in datengesteuerten, variablen Umgebungen entwickeln. Die Forschung könnte zu Möglichkeiten für eine großflächige Optimierung dynamischer Systeme führen, die einen signifikanten Einfluss auf das Ausmaß der zu lösenden Probleme haben könnten.

Schlüsselbegriffe

Lernen, dynamische Umgebungen, Unsicherheit, bestärkendes Lernen

Entdecken Sie Artikel in demselben Anwendungsbereich