HyperAIHyperAI

Command Palette

Search for a command to run...

Any-step Dynamics Model verbessert die Vorhersage zukünftiger Zustände für Online- und Offline-Reinforcement Learning

Haoxin Lin Yu-Yan Xu Yihao Sun Zhilong Zhang Yi-Chen Li Chengxing Jia Junyin Ye Jiaji Zhang Yang Yu

Zusammenfassung

Modellbasierte Methoden im Verstärkenden Lernen bieten einen vielversprechenden Ansatz, um die Daten-Effizienz durch eine effektivere Politik-Exploration innerhalb eines Dynamikmodells zu steigern. Allerdings stellt die präzise Vorhersage mehrerer Schritte im Dynamikmodell aufgrund des Bootstrapping-Verfahrens eine Herausforderung dar, bei dem der nächste Zustand auf der Vorhersage des aktuellen Zustands basiert. Dies führt zu akkumulierten Fehlern während des Modell-Rollouts. In diesem Paper stellen wir das Any-step Dynamics Model (ADM) vor, um die Fehlerakku­mulation zu verringern, indem das Bootstrapping auf direkte Vorhersagen reduziert wird. ADM ermöglicht die Verwendung von Eingaben mit variabler Länge zur Vorhersage zukünftiger Zustände, wobei häufiges Bootstrapping entfällt. Wir entwickeln zwei Algorithmen, ADMPO-ON und ADMPO-OFF, die das ADM jeweils in online- und offline-Modellbasierten Rahmenwerken einsetzen. Im online-Setting zeigt ADMPO-ON eine verbesserte Stichproben-Effizienz im Vergleich zu früheren state-of-the-art-Methoden. Im offline-Setting demonstriert ADMPO-OFF nicht nur eine überlegene Leistung gegenüber jüngsten state-of-the-art-Methoden im Offline-Lernen, sondern bietet auch eine bessere Quantifizierung der Modellunsicherheit mittels lediglich eines einzigen ADM.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp