Agent57: Die menschliche Benchmark für Atari übertreffen

Atari-Spiele sind in der Gemeinschaft des Verstärkenden Lernens (Reinforcement Learning, RL) bereits seit einem Jahrzehnt ein etablierter Benchmark. Dieser Benchmark wurde eingeführt, um die allgemeine Kompetenz von RL-Algorithmen zu testen. Bisherige Arbeiten erreichten eine gute durchschnittliche Leistung, indem sie sich in vielen Spielen hervorragend schlugen, jedoch in mehreren der anspruchsvollsten Spiele sehr schlecht abschnitten. Wir stellen Agent57 vor, den ersten tiefen RL-Agenten, der auf allen 57 Atari-Spielen die standardmäßige menschliche Leistung übertreffen kann. Um dieses Ergebnis zu erzielen, trainieren wir ein neuronales Netzwerk, das eine Familie von Strategien parametrisiert, die von stark explorativ bis hin zu rein exploitative reichen. Wir schlagen eine adaptive Mechanik vor, um während des gesamten Trainingsprozesses die jeweils geeignetste Strategie auszuwählen. Zudem nutzen wir eine neuartige Architektur-Parameterisierung, die ein konsistentes und stabileres Lernen ermöglicht.