CORDIS - Forschungsergebnisse der EU
CORDIS

Efficient sequential decision making under uncertainty

Article Category

Article available in the following languages:

Entscheidungsfindung im unsicheren Umfeld

Ein von der EU finanziertes Projekt hat effiziente Rechenverfahren für automatisiertes Lernen und Entscheidungsfindung unter Unsicherheit entwickelt. Diese Verfahren können in vielen Anwendungen wie etwa im Bereich Netzwerksicherheit, Robotik und Verkehrsmanagement eingesetzt werden.

Digitale Wirtschaft icon Digitale Wirtschaft

Die statistische Entscheidungstheorie bietet einen Rahmen zum Suchen optimaler Lösungen. In vielen Fällen sind jedoch exakte Rückschlusse und die Planung eher unlösbar. Diese Hindernisse möglichst zu überwinden, war das Ziel des von der EU finanzierten Projekts 'Efficient sequential decision making under uncertainty' (ESDEMUU). Das Projekt wollte effiziente Näherungsverfahren für nahezu optimales Lernen und eine optimale Entscheidungsfindung bei derartigen Problemen entwickeln. Ein interessantes Puzzle betrifft das Bestärkende Lernen (Reinforcement Learning), bei dem die intelligenten oder lernenden Agenten in einer unbekannten Umgebung ausschließlich über Interaktion lernen müssen, um die während einer Abfolge von Zeitschritten erhaltene Gesamtbelohnung zu maximieren. Eine besondere Schwierigkeit taucht jedoch auf, wenn die Parameterverteilung schwer zu berechnen ist. Aus diesem Grund entwickelte das Projekt Modelle, die mit verteilten Wertfunktionen angewandt werden können, um so die Entscheidungsfindung bei diesen speziellen Lernproblemen auszuführen. Ein weiteres sequentielles Entscheidungsfindungsproblem beinhaltet das Lernen, wie aus Demonstrationen zu handeln ist. Hier erweiterte das Projekt eine prinzipielle Verallgemeinerung für das Problem des Lernens von mehreren Lehrern mit verschiedenen Präferenzen. Im DCOP-System (distributed constraint optimization problem, DCOP) löste ESDEMUU das Problem der Suche nach einer optimalen Politik für eine Gruppe von Kommunikationsagenten mittels nur eingeschränkter Kommunikation. Man entwickelte Algorithmen, die Probleme dieser Art effizient lösen können. Zum Abschluss schlug das nun abgeschlossene Projekt einen neuartigen Rahmen zur Modellierung wenig belohnter Prozesse vor, bei denen ein Lernagent in einer unbekannten Umgebung plaziert wird und mit einer Reihe von zur Auswahl stehender entgegengesetzter Ziele konfrontiert wird. Der Haupteinsatzzweck für dieses Konzept werden Anwendungen in den Informations- und Kommunikationstechnologien (IKT) im Sicherheitsbereich und bei der Feststellung unbefugten Netzzugangs (network-intrusion detection) sein.

Entdecken Sie Artikel in demselben Anwendungsbereich