vor 2 Monaten

Atari spielen mit sechs Neuronen

Giuseppe Cuccu; Julian Togelius; Philippe Cudre-Mauroux

Abstract

Tiefes Reinforcement Learning, angewendet auf bildbasierte Probleme wie Atari-Spiele, ordnet Pixel direkt Aktionen zu; intern trägt das tiefe neuronale Netzwerk die Verantwortung sowohl für die Extraktion nützlicher Informationen als auch für Entscheidungen auf ihrer Grundlage. Durch die Trennung der Bildverarbeitung von der Entscheidungsfindung könnte man die Komplexität jeder Aufgabe besser verstehen und potentiell kleinere Richtliniendarstellungen finden, die leichter für Menschen verständlich sind und sich möglicherweise besser verallgemeinern lassen. Zu diesem Zweck schlagen wir eine neue Methode vor, bei der Richtlinien und kompakte Zustandsdarstellungen getrennt, aber gleichzeitig für die Richtlinienapproximation im Reinforcement Learning gelernt werden. Die Zustandsdarstellungen werden von einem Encoder basierend auf zwei neuen Algorithmen generiert: Increasing Dictionary Vector Quantization (IDVQ) ermöglicht es dem Encoder, seine Wörterbuchgröße im Laufe der Zeit zu erhöhen, um neue Beobachtungen in einem offenen Online-Lernkontext zu berücksichtigen; Direct Residuals Sparse Coding (DRSC) kodiert Beobachtungen, indem es den Minimierung des Rekonstruktionsfehlers ignoriert und stattdessen auf die maximale Informationsaufnahme abzielt. Der Encoder wählt autonom Online-Beobachtungen aus, um darauf zu trainieren und so die Kodesparsamkeit zu maximieren. Mit der Erhöhung der Wörterbuchgröße produziert der Encoder zunehmend größere Eingaben für das neuronale Netzwerk: dies wird durch eine Variante des Exponential Natural Evolution Strategies (ENES)-Algorithmus gelöst, der seine Wahrscheinlichkeitsverteilungsdimension während des Läufens anpasst. Wir testen unser System an einer Auswahl von Atari-Spielen unter Verwendung winziger neuronalen Netze mit nur 6 bis 18 Neuronen (abhängig von den Steuerungsoptionen des Spiels). Diese sind immer noch in der Lage, Ergebnisse zu erzielen, die vergleichbar---und gelegentlich überlegen---zu den modernsten Techniken sind, die zwei Größenordnungen mehr Neuronen verwenden.