Command Palette
Search for a command to run...
Tiefe Erforschung durch Bootstrapped DQN
Tiefe Erforschung durch Bootstrapped DQN
Ian Osband Charles Blundell Alexander Pritzel Benjamin Van Roy
Zusammenfassung
Effiziente Exploration in komplexen Umgebungen bleibt eine der größten Herausforderungen für das Reinforcement Learning. Wir schlagen den bootstrapped DQN vor, einen einfachen Algorithmus, der durch die Verwendung randomisierter Wertfunktionen auf computationally und statistisch effiziente Weise exploriert. Im Gegensatz zu Störstrategien wie dem epsilon-greedy Exploration verfolgt bootstrapped DQN eine zeitlich erweiterte (oder tiefe) Exploration; dies kann zu exponentiell schnellerem Lernen führen. Wir demonstrieren diese Vorteile in komplexen stochastischen Markov-Entscheidungsprozessen (MDPs) und in der groß angelegten Arcade-Learning-Umgebung. Bootstrapped DQN verbessert die Lernzeiten und die Leistung in den meisten Atari-Spielen erheblich.