vor 2 Monaten

Tiefes Reinforcement Learning mit Double Q-Learning

Hado van Hasselt; Arthur Guez; David Silver

Abstract

Der bekannte Q-Lernalgorithmus neigt unter bestimmten Bedingungen dazu, Aktionen zu überschätzen. Bisher war es unklar, ob solche Überschätzungen in der Praxis häufig auftreten, ob sie die Leistung beeinträchtigen und ob sie im Allgemeinen verhindert werden können. In dieser Arbeit beantworten wir alle diese Fragen positiv. Insbesondere zeigen wir zunächst, dass der kürzlich eingeführte DQN-Algorithmus (Deep Q-Network), der Q-Lernen mit einem tiefen neuronalen Netzwerk kombiniert, in einigen Spielen des Atari 2600-Domains erhebliche Überschätzungen aufweist. Anschließend demonstrieren wir, dass das Konzept hinter dem Double Q-Lernalgorithmus, das ursprünglich in einer tabellarischen Umgebung vorgestellt wurde, auf große Funktionsapproximation verallgemeinert werden kann. Wir schlagen eine spezifische Anpassung des DQN-Algorithmus vor und zeigen, dass der resultierende Algorithmus nicht nur die beobachteten Überschätzungen reduziert, wie vermutet, sondern dass dies auch zu deutlich besseren Leistungen in mehreren Spielen führt.