HyperAIHyperAI

Command Palette

Search for a command to run...

Tiefes Reinforcement Learning mit Double Q-Learning

Hado van Hasselt; Arthur Guez; David Silver

Zusammenfassung

Der bekannte Q-Lernalgorithmus neigt unter bestimmten Bedingungen dazu, Aktionen zu überschätzen. Bisher war es unklar, ob solche Überschätzungen in der Praxis häufig auftreten, ob sie die Leistung beeinträchtigen und ob sie im Allgemeinen verhindert werden können. In dieser Arbeit beantworten wir alle diese Fragen positiv. Insbesondere zeigen wir zunächst, dass der kürzlich eingeführte DQN-Algorithmus (Deep Q-Network), der Q-Lernen mit einem tiefen neuronalen Netzwerk kombiniert, in einigen Spielen des Atari 2600-Domains erhebliche Überschätzungen aufweist. Anschließend demonstrieren wir, dass das Konzept hinter dem Double Q-Lernalgorithmus, das ursprünglich in einer tabellarischen Umgebung vorgestellt wurde, auf große Funktionsapproximation verallgemeinert werden kann. Wir schlagen eine spezifische Anpassung des DQN-Algorithmus vor und zeigen, dass der resultierende Algorithmus nicht nur die beobachteten Überschätzungen reduziert, wie vermutet, sondern dass dies auch zu deutlich besseren Leistungen in mehreren Spielen führt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp