HyperAIHyperAI
vor 2 Monaten

Die Erhöhung des Aktionen-Abstands: Neue Operatoren für das Reinforcement Learning

Marc G. Bellemare; Georg Ostrovski; Arthur Guez; Philip S. Thomas; Rémi Munos
Die Erhöhung des Aktionen-Abstands: Neue Operatoren für das Reinforcement Learning
Abstract

Dieses Papier stellt neue Optimalitätserhaltende Operatoren auf Q-Funktionen vor. Zunächst beschreiben wir einen Operator für tabellarische Darstellungen, den konsistenten Bellman-Operator, der ein Konzept der lokalen Politikkonsistenz integriert. Wir zeigen, dass diese lokale Konsistenz zu einer Erhöhung des Aktionsspalts in jedem Zustand führt; eine solche Erhöhung des Spalts, so argumentieren wir, mildert die unerwünschten Auswirkungen von Approximations- und Schätzfehlern auf die induzierten gierigen Politiken. Dieser Operator kann auch auf diskretisierte kontinuierliche Raum- und Zeitprobleme angewendet werden, und wir präsentieren empirische Ergebnisse, die eine überlegene Leistung in diesem Kontext belegen. Indem wir das Konzept eines lokal konsistenten Operators erweitern, leiten wir anschließend hinreichende Bedingungen für einen Operator ab, um Optimalität zu erhalten, was zu einer Familie von Operatoren führt, die unseren konsistenten Bellman-Operator einschließt. Als Korollar geben wir einen Beweis der Optimalität für Bairds Vorteils-Lernalgorithmus (Advantage Learning Algorithm) und leiten andere Spalt-vergrößernde Operatoren mit interessanten Eigenschaften her. Wir schließen mit einer empirischen Studie an 60 Atari 2600 Spielen ab, die das starke Potenzial dieser neuen Operatoren veranschaulicht.

Die Erhöhung des Aktionen-Abstands: Neue Operatoren für das Reinforcement Learning | Neueste Forschungsarbeiten | HyperAI