Online und Offline Verstärkendes Lernen durch Planung mit einem gelernten Modell

Die effiziente Nutzung von geringen Datenmengen ist seit langem ein zentrales Anliegen des modellbasierten Verstärkungslernens – sowohl im online-Setting bei Interaktion mit der Umgebung als auch im offline-Setting bei der Lernung aus einem festen Datensatz. Bisher konnte jedoch kein einzelner, einheitlicher Algorithmus gleichzeitig state-of-the-art-Ergebnisse in beiden Szenarien erzielen. In dieser Arbeit stellen wir den Reanalyse-Algorithmus vor, der modellbasierte Politik- und Wertverbesserungsoperatoren nutzt, um auf bestehenden Datensätzen neue, verbesserte Trainingsziele zu berechnen. Dadurch ermöglicht Reanalyse eine effiziente Lernleistung bei Datenbudgets, die sich um mehrere Größenordnungen unterscheiden. Weiterhin zeigen wir, dass Reanalyse auch vollständig aus Demonstrationen ohne jegliche Interaktion mit der Umgebung lernen kann – im Sinne des offline Reinforcement Learning (offline RL). Durch die Kombination von Reanalyse mit dem MuZero-Algorithmus führen wir MuZero Unplugged ein, einen einheitlichen Algorithmus, der für beliebige Datenbudgets geeignet ist, einschließlich offline RL. Im Gegensatz zu früheren Ansätzen erfordert unser Algorithmus keine speziellen Anpassungen für das off-policy- oder offline-RL-Setting. MuZero Unplugged erreicht neue state-of-the-art-Ergebnisse im RL Unplugged offline RL Benchmark sowie im online RL Benchmark von Atari im Standardsetting von 200 Millionen Frames.