HyperAIHyperAI
vor 2 Monaten

Anreizung der Erkundung in Reinforcement Learning durch tiefgreifende Vorhersagemodelle

Bradly C. Stadie; Sergey Levine; Pieter Abbeel
Anreizung der Erkundung in Reinforcement Learning durch tiefgreifende Vorhersagemodelle
Abstract

Die Erreichung effizienter und skalierbarer Exploration in komplexen Domänen stellt eine große Herausforderung im Bereich des Reinforcement Learnings dar. Obwohl bayessche Ansätze und die PAC-MDP-Methode starke formale Garantien für das Explorationsproblem bieten, sind sie in höherdimensionalen Räumen oft aufgrund ihrer Abhängigkeit von der Aufzählung des Zustands-Aktions-Raums unpraktikabel. Daher wird die Exploration in komplexen Domänen häufig mit einfachen Epsilon-Greedy-Methoden durchgeführt. In dieser Arbeit betrachten wir die anspruchsvolle Domäne der Atari-Spiele, die das Verarbeiten roher Pixel-Eingaben und verzögerter Belohnungen erfordert. Wir evaluieren mehrere fortschrittlichere Explorationsstrategien, darunter Thompson Sampling und Boltzmann-Exploration, und schlagen eine neue Explorationsmethode vor, die auf der Zuweisung von Explorationsbonus basiert, die aus einem gleichzeitig gelernten Modell der Systemdynamik abgeleitet werden. Durch die Parametrisierung unseres gelernten Modells mit einem neuronalen Netzwerk können wir einen skalierbaren und effizienten Ansatz für Explorationsbonus entwickeln, der auf Aufgaben mit komplexen, hochdimensionalen Zustandsräumen angewendet werden kann. Im Atari-Domänenbereich liefert unsere Methode konsistente Verbesserungen bei einer Reihe von Spielen, die für frühere Methoden eine große Herausforderung darstellen. Neben den Rohspielpunkten entwickeln wir auch ein AUC-100-Maß für den Atari-Lernbereich, um den Einfluss der Exploration auf diesen Benchmark zu bewerten.