Priorisierte Erfahrungswiedergabe

Erfahrungswiederholung (experience replay) ermöglicht es Online-Verstärkungslernagenten, vergangene Erfahrungen zu speichern und wiederverzuzuschen. In früheren Arbeiten wurden Übergänge der Erfahrung gleichverteilt aus einem Wiederholungsspeicher (replay memory) abgerufen. Dieser Ansatz wiederholt jedoch Übergänge einfach in der gleichen Häufigkeit, wie sie ursprünglich erlebt wurden, unabhängig von ihrer Bedeutung. In dieser Arbeit entwickeln wir ein Framework zur Priorisierung von Erfahrungen, um wichtige Übergänge häufiger zu wiederholen und somit effizienter zu lernen. Wir verwenden die priorisierte Erfahrungswiederholung in Deep Q-Netzwerken (DQN), einem Verstärkungslernalgorithmus, der menschliches Leistungsniveau in vielen Atari-Spielen erreicht hat. DQN mit prioritisierter Erfahrungswiederholung erreicht einen neuen Stand der Technik und übertrifft DQN mit gleichverteilter Wiederholung in 41 von 49 Spielen.