Kleinere Weltmodelle für das Verstärkungslernen

Die Stichproben-Effizienz bleibt eine grundlegende Herausforderung im Verstärkenden Lernen. Modellbasierte Algorithmen versuchen, Daten effizienter zu nutzen, indem sie die Umgebung mit einem Modell simulieren. Wir schlagen eine neue neuronale Netzarchitektur für Weltmodelle vor, die auf einem Vektorquantisierten-Varianz-Autoencoder (VQ-VAE) zur Kodierung von Beobachtungen und einem konvolutionellen LSTM zur Vorhersage der nächsten Embedding-Indizes basiert. Ein modellfreier PPO-Agent wird ausschließlich auf simulierten Erfahrungen aus dem Weltmodell trainiert. Wir verwenden die von Kaiser et al. (2020) vorgeschlagene Testumgebung, die lediglich 100.000 Interaktionen mit der realen Umgebung erlaubt. Wir evaluieren unsere Methode auf 36 Atari-Umgebungen und zeigen, dass wir eine vergleichbare Leistung wie der SimPLe-Algorithmus erreichen, während unser Modell signifikant kleiner ist.