Der Reaktor: Ein schnelles und stichproben-effizientes Actor-Critic-Agent für Reinforcement Learning

In dieser Arbeit stellen wir eine neue Agentenarchitektur vor, die Reactor genannt wird. Diese Architektur kombiniert mehrere algorithmische und architektonische Beiträge, um einen Agenten zu erzeugen, der eine höhere Stichproben-Effizienz als Prioritized Dueling DQN (Wang et al., 2016) und Categorical DQN (Bellemare et al., 2017) aufweist und gleichzeitig eine bessere Laufzeitleistung als A3C (Mnih et al., 2016) bietet. Unser erster Beitrag ist ein neuer Policy Evaluation Algorithmus, der Distributional Retrace heißt. Dieser Algorithmus führt Multi-Schritt Off-Policy-Updates in den Bereich des distributionellen Reinforcement Learnings ein. Der gleiche Ansatz kann verwendet werden, um mehrere Klassen von Multi-Schritt Policy Evaluation Algorithmen, die für die Erwartungswertbewertung entwickelt wurden, in distributionelle Algorithmen zu konvertieren. Als Nächstes führen wir den \b{eta}-Leave-One-Out Policy Gradient Algorithmus ein, der das Verhältnis zwischen Varianz und Bias durch die Verwendung von Aktionswerten als Baseline verbessert. Unser letzter algorithmischer Beitrag ist ein neuer prioritierter Replay-Algorithmus für Sequenzen, der die zeitliche Lokalität benachbarter Beobachtungen ausnutzt, um eine effizientere Replay-Priorisierung zu ermöglichen. Anhand der Atari 2600-Benchmarks zeigen wir, dass jede dieser Innovationen sowohl zur Stichproben-Effizienz als auch zur endgültigen Agentenleistung beiträgt. Schließlich demonstrieren wir, dass Reactor nach 200 Millionen Frames und weniger als einem Tag Training den Stand der Technik erreicht.