Skip to main content
CORDIS - Forschungsergebnisse der EU
CORDIS

Data-Efficient Scalable Reinforcement Learning for Practical Robotic Environments

Article Category

Article available in the following languages:

Entwurf von Algorithmen für schwierigere Daten

Bei der Forschung im Bereich des maschinellen Lernens ist besonders wichtig, den Übergang von der Simulation zur Realität zu überwinden, damit in Computersimulationen erbrachte algorithmische Meisterleistungen bei Testvorführungen wiederholt werden können. Zu genau diesem Zweck hat DESIRE einen datengestützten, robusten Algorithmus zur Entscheidungsfindung entwickelt.

Digitale Wirtschaft icon Digitale Wirtschaft

Fortschritte in der Informatik, etwa das Spiel AlphaGo, sind einerseits auf große Datenmengen angewiesen und erzeugen diese andererseits. Dieser Datenmenge wird die Forschung mit Algorithmen des maschinellen Lernens gerecht, die mit Verfahren wie dem Verstärkungslernen sowie dank Durchbrüchen in der künstlichen Intelligenz entwickelt wurden. Auch wenn diese Algorithmen innerhalb von Simulationen effektiv sein können, erweisen sie sich in der realen Welt oft als Enttäuschung. Solche Leistungsausfälle haben in Bereichen wie der Robotik, in denen viel auf dem Spiel steht und wo aus Gründen der praktischen Anwendbarkeit und der Kosten nur eine begrenzte Anzahl von Versuchen durchgeführt werden kann, schwerwiegende Folgen. Das EU-finanzierte Projekt DESIRE sollte deshalb die Robustheit der Optimierungs-, Lern- und Steuerungsalgorithmen verbessern, die vielen Innovationen zugrundeliegen, die eine autonome Steuerung zum Ziel haben.

Kernel-DRO als Lösung

Eines der Schlüsselprobleme des Transfers der Simulation in die Realität ist ein Phänomen des maschinellen Lernens, die sogenannte „Verteilungsverschiebung“. Vereinfacht ausgedrückt handelt es sich dabei um eine Diskrepanz, die zwischen der Verteilung der Daten in den zum Training benutzten Datensätzen und den für Tests in der realen Welt angewandten Datensätzen auftritt. „Normalerweise liegt der Grund darin, dass sich die Testdatensätze in ihrer Darstellung der Bedingungen in der realen Welt als zu stark vereinfacht erweisen“, erklärt Forschungsstipendiat Jia-Jie Zhu, der im Rahmen der Marie-Skłodowska-Curie-Maßnahmen unterstützt wurde. „Die Verteilungsverschiebung ist eines der Hauptprobleme bei Lern- und Steuerungsalgorithmen und ein Stolperstein für den Fortschritt“, ergänzt Zhu, der am Max-Planck-Institut für intelligente Systeme, dem Projektträger, arbeitet. Das Projekt DESIRE griff auf die sogenannte Kernel-Methode zurück, um diese Verteilungsverschiebung zu verringern. Diese Berechnungen gestalten Algorithmen zuverlässiger, indem sie Muster in den Daten erkennen, Beziehungen innerhalb der Daten gemäß vorgegebenen Merkmalen wie etwa Korrelationen oder Klassifikationen ermitteln und diese dann organisieren. Auf diese Weise konnte DESIRE einen Algorithmus entwerfen, der eine verteilungsrobuste Kernel-Optimierung (Kernel Distributionally Robust Optimisation, Kernel-DRO) einsetzt, bei der Entscheidungen, beispielsweise Steuerbefehle für Roboter, robust festgelegt werden.

Großes Plus: breite Anwendbarkeit

Auch wenn die Arbeit von DESIRE theoretischer Natur ist, hat sie neben einem Beitrag zur Fachliteratur über die Theorie der mathematischen Optimierung, Steuerung und des maschinellen Lernens auch eine ganze Reihe sehr praktischer Implikationen. So liegt eine Stärke der Kernel-DRO-Lösung des Teams genau in diesem breiten Anwendungsspektrum. „Bei vielen der heutigen Lernaufgaben gibt es Schwierigkeiten mit der Mehrdeutigkeit der Datenverteilung. Wir sind überzeugt, dass unser Algorithmus bei praktischen Anwendungen in Industrie oder Wirtschaft, bei denen die Robustheit des maschinellen Lernens verbessert werden soll, leicht anwendbar ist“, erklärt Zhu. Um die Arbeit voranzubringen, geht Zhu nun die Entwicklung von Lernalgorithmen in größerem Maßstab an, die zufälligere Dateneingaben bewältigen können und für industrielle Anwendungen geeignet sind. Zum Beispiel wird das Prinzip der Datenrobustheit auf die modellprädiktive Regelung angewandt, eine hocheffektive Regelungsmethode für sicherheitskritische Anwendungen wie etwa die Flugsteuerung, chemische Prozesssteuerung und Robotik.

Schlüsselbegriffe

DESIRE, Maschinelles Lernen, Künstliche Intelligenz, Roboter, Berechnungen, Datenverteilung, Algorithmus, autonom, Verstärkungslernen, Kernel, Systemkern, Simulationen

Entdecken Sie Artikel in demselben Anwendungsbereich