HyperAIHyperAI
vor 2 Monaten

Modellbasiertes Reinforcement Learning für Atari

Lukasz Kaiser; Mohammad Babaeizadeh; Piotr Milos; Blazej Osinski; Roy H Campbell; Konrad Czechowski; Dumitru Erhan; Chelsea Finn; Piotr Kozakowski; Sergey Levine; Afroz Mohiuddin; Ryan Sepassi; George Tucker; Henryk Michalewski
Modellbasiertes Reinforcement Learning für Atari
Abstract

Modellfreies Reinforcement Learning (RL) kann effektive Strategien für komplexe Aufgaben, wie z.B. Atari-Spiele, sogar auf Basis von Bildbeobachtungen erlernen. Allerdings erfordert dies in der Regel sehr große Mengen an Interaktion – tatsächlich deutlich mehr als ein Mensch benötigen würde, um die gleichen Spiele zu lernen. Wie können Menschen so schnell lernen? Ein Teil der Antwort könnte darin liegen, dass Menschen das Spielmechanik verstehen und vorhersagen können, welche Aktionen zu gewünschten Ergebnissen führen. In dieser Arbeit untersuchen wir, wie Videovorhersagemodelle Agenten ermöglichen können, Atari-Spiele mit weniger Interaktionen als modellfreie Methoden zu lösen. Wir beschreiben Simulated Policy Learning (SimPLe), einen vollständigen modellbasierten tiefen RL-Algorithmus, der auf Videovorhersagemodellen basiert, und stellen einen Vergleich verschiedener Modellarchitekturen vor, darunter eine neuartige Architektur, die in unserem Szenario die besten Ergebnisse liefert. Unsere Experimente bewerten SimPLe anhand einer Reihe von Atari-Spielen im niedrigen Datenregime von 100.000 Interaktionen zwischen Agent und Umgebung, was einem zweistündigen Echtzeitspiel entspricht. In den meisten Spielen übertrifft SimPLe die standesüblichen modellfreien Algorithmen; in manchen Spielen sogar um mehr als eine Größenordnung.