HyperAIHyperAI
vor 17 Tagen

Generierte Datenverteilungsiteration

Jiajun Fan, Changnan Xiao
Generierte Datenverteilungsiteration
Abstract

Die gleichzeitige Erreichung einer höheren Probeneffizienz und einer überlegenen Endleistung stellt eine der zentralen Herausforderungen im Bereich des tiefen Verstärkungslernens (Deep Reinforcement Learning, DRL) dar. Bisherige Ansätze konnten typischerweise lediglich eine dieser Herausforderungen bewältigen, jedoch selten beide gleichzeitig. In diesem Artikel greifen wir beide Herausforderungen simultan an. Dazu zerlegen wir zunächst die beiden Probleme in zwei klassische RL-Aufgaben: die Reichhaltigkeit der Daten und das Explorations-Exploitation-Trade-off. Anschließend formulieren wir diese beiden Aufgaben als Optimierungsproblem der Trainingsdatenverteilung – konkret: die Gewinnung gewünschter Trainingsdaten innerhalb begrenzter Interaktionen – und lösen sie gleichzeitig durch i) eine explizite Modellierung und Steuerung der Kapazität und Vielfalt der Verhaltenspolitik sowie ii) eine feinere und adaptivere Kontrolle der selektiven/Sampling-Verteilung der Verhaltenspolitik mittels einer monotonen Optimierung der Datenverteilung. Schließlich integrieren wir diesen Prozess in die Generalisierte Politik-Iteration (Generalized Policy Iteration, GPI) und entwickeln einen allgemeineren Rahmen namens Generalisierte Datenverteilungs-Iteration (Generalized Data Distribution Iteration, GDI). Mit dem GDI-Rahmen stellen wir operatorbasierte Varianten bekannter RL-Methoden von DQN bis hin zu Agent57 vor. Theoretisch wird die Überlegenheit von GDI gegenüber GPI hergeleitet. Wir demonstrieren zudem unsere Stand der Technik (SOTA)-Leistung im Arcade Learning Environment (ALE), wobei unser Algorithmus einen durchschnittlichen menschlichen Normalisierungsscore (mean Human Normalized Score, HNS) von 9620,33 %, einen Median-HNS von 1146,39 % erzielt und mit lediglich 200 Millionen Trainingsframes mehr als 22 menschliche Weltrekorde übertroffen hat. Unser Ergebnis ist mit dem von Agent57 vergleichbar, wobei wir nur ein 500stel der benötigten Datenmenge verbrauchen. Wir argumentieren, dass es noch einen weiten Weg bis zur Entwicklung echter übermenschlicher Agenten im ALE gibt.