HyperAIHyperAI
vor 16 Tagen

Reinforcement Learning mit latenter Flussdarstellung

Wenling Shang, Xiaofei Wang, Aravind Srinivas, Aravind Rajeswaran, Yang Gao, Pieter Abbeel, Michael Laskin
Reinforcement Learning mit latenter Flussdarstellung
Abstract

Zeitliche Information ist entscheidend für die Lernung effektiver Politiken mittels Verstärkendem Lernen (Reinforcement Learning, RL). Derzeitige State-of-the-Art-RL-Algorithmen setzen entweder voraus, dass diese Information Teil des Zustandsraums ist, oder nutzen bei der Verarbeitung von Pixeln die einfache Heuristik des Frame-Stacking, um die zeitliche Information in den Bildbeobachtungen implizit zu erfassen. Diese Vorgehensweise steht im Gegensatz zum aktuellen Paradigma in Architekturen für Video-Klassifikation, die explizite Kodierungen zeitlicher Informationen durch Methoden wie Optischen Fluss und Zwei-Stream-Architekturen nutzen, um State-of-the-Art-Leistung zu erreichen. Inspiriert durch führende Architekturen für Video-Klassifikation stellen wir Flare (Flow of Latents for Reinforcement Learning) vor – eine Netzwerkarchitektur für RL, die zeitliche Informationen explizit durch Differenzen latenter Vektoren kodiert. Wir zeigen, dass Flare (i) die optimale Leistung in Zustandsbasiertem RL erreicht, ohne expliziten Zugriff auf die Zustandsgeschwindigkeit, allein mit Positions-Zustandsinformation, (ii) State-of-the-Art-Leistung auf anspruchsvollen, pixelbasierten kontinuierlichen Steuerungsaufgaben innerhalb der DeepMind Control Benchmark-Suite erzielt – konkret beim Quadruped Walk, Hopper Hop, Finger Turn Hard, Pendulum Swing und Walker Run – und dabei der sample-effizienteste modellfreie, pixelbasierte RL-Algorithmus ist, der den vorherigen modellfreien State-of-the-Art bei den Benchmark-Szenarien mit 500k und 1M Schritten jeweils um Faktor 1,9 und 1,5 übertrifft, sowie (iv) bei Erweiterung über Rainbow DQN die State-of-the-Art-Benchmark-Leistung auf 5 von 8 anspruchsvollen Atari-Spielen bei einem Benchmark von 100 Millionen Zeit-Schritten übertrifft.

Reinforcement Learning mit latenter Flussdarstellung | Neueste Forschungsarbeiten | HyperAI