HyperAIHyperAI
vor 2 Monaten

Tiefe Erforschung durch Bootstrapped DQN

Ian Osband; Charles Blundell; Alexander Pritzel; Benjamin Van Roy
Tiefe Erforschung durch Bootstrapped DQN
Abstract

Effiziente Exploration in komplexen Umgebungen bleibt eine der größten Herausforderungen für das Reinforcement Learning. Wir schlagen den bootstrapped DQN vor, einen einfachen Algorithmus, der durch die Verwendung randomisierter Wertfunktionen auf computationally und statistisch effiziente Weise exploriert. Im Gegensatz zu Störstrategien wie dem epsilon-greedy Exploration verfolgt bootstrapped DQN eine zeitlich erweiterte (oder tiefe) Exploration; dies kann zu exponentiell schnellerem Lernen führen. Wir demonstrieren diese Vorteile in komplexen stochastischen Markov-Entscheidungsprozessen (MDPs) und in der groß angelegten Arcade-Learning-Umgebung. Bootstrapped DQN verbessert die Lernzeiten und die Leistung in den meisten Atari-Spielen erheblich.