Kampfende Netzwerkarchitekturen für Deep Reinforcement Learning

In den letzten Jahren wurden zahlreiche Erfolge bei der Verwendung tiefer Repräsentationen im Reinforcement Learning (RL) erzielt. Dennoch verwenden viele dieser Anwendungen herkömmliche Architekturen, wie Faltungsnetze, LSTMs oder Autoencoder. In dieser Arbeit stellen wir eine neue neuronale Netzwerkarchitektur für modelfreies Reinforcement Learning vor. Unser Dueling Network repräsentiert zwei getrennte Schätzer: einen für die Zustandswertfunktion und einen für die auf den Zustand basierende Aktionen-Vorteilsfunktion. Der Hauptvorteil dieser Faktorisierung besteht darin, das Lernen über Aktionen hinweg zu verallgemeinern, ohne Änderungen am zugrunde liegenden RL-Algorithmus vorzunehmen. Unsere Ergebnisse zeigen, dass diese Architektur zu einer besseren Policyschätzung führt, wenn viele vergleichbar wertvolle Aktionen vorhanden sind. Darüber hinaus ermöglicht die Dueling-Architektur unserem RL-Agenten, den Stand der Technik im Atari 2600-Domäne zu übertreffen.