Atari spielen mit tiefem Reinforcement Learning

Wir präsentieren das erste Tiefenlernmodell, das es erfolgreich schafft, Steuerungsstrategien direkt aus hochdimensionalen sensorischen Eingaben unter Verwendung von Reinforcement Learning zu lernen. Das Modell ist ein Faltungsneuronales Netzwerk (Convolutional Neural Network), das mit einer Variante des Q-Learnings trainiert wird. Die Eingabe des Netzes sind rohe Pixel, und die Ausgabe ist eine Wertfunktion, die zukünftige Belohnungen schätzt. Wir wenden unsere Methode auf sieben Atari 2600 Spiele aus der Arcade Learning Environment an, ohne Anpassungen an der Architektur oder dem Lernalgorithmus vorzunehmen. Wir stellen fest, dass es in sechs der Spiele alle bisherigen Ansätze übertrifft und in drei von ihnen sogar einen menschlichen Experten übertreffen kann.