Any-step Dynamics Model verbessert die Vorhersage zukünftiger Zustände für Online- und Offline-Reinforcement Learning

Modellbasierte Methoden im Verstärkenden Lernen bieten einen vielversprechenden Ansatz, um die Daten-Effizienz durch eine effektivere Politik-Exploration innerhalb eines Dynamikmodells zu steigern. Allerdings stellt die präzise Vorhersage mehrerer Schritte im Dynamikmodell aufgrund des Bootstrapping-Verfahrens eine Herausforderung dar, bei dem der nächste Zustand auf der Vorhersage des aktuellen Zustands basiert. Dies führt zu akkumulierten Fehlern während des Modell-Rollouts. In diesem Paper stellen wir das Any-step Dynamics Model (ADM) vor, um die Fehlerakkumulation zu verringern, indem das Bootstrapping auf direkte Vorhersagen reduziert wird. ADM ermöglicht die Verwendung von Eingaben mit variabler Länge zur Vorhersage zukünftiger Zustände, wobei häufiges Bootstrapping entfällt. Wir entwickeln zwei Algorithmen, ADMPO-ON und ADMPO-OFF, die das ADM jeweils in online- und offline-Modellbasierten Rahmenwerken einsetzen. Im online-Setting zeigt ADMPO-ON eine verbesserte Stichproben-Effizienz im Vergleich zu früheren state-of-the-art-Methoden. Im offline-Setting demonstriert ADMPO-OFF nicht nur eine überlegene Leistung gegenüber jüngsten state-of-the-art-Methoden im Offline-Lernen, sondern bietet auch eine bessere Quantifizierung der Modellunsicherheit mittels lediglich eines einzigen ADM.