HyperAIHyperAI
vor 17 Tagen

Off-Policy Actor-Critic mit geteiltem Experience Replay

Simon Schmitt, Matteo Hessel, Karen Simonyan
Off-Policy Actor-Critic mit geteiltem Experience Replay
Abstract

Wir untersuchen die Kombination von Actor-Critic-Verstärkungslernalgorithmen mit uniformem, großskaligem Experience Replay und schlagen Lösungen für zwei Herausforderungen vor: (a) effizientes Actor-Critic-Lernen mit Experience Replay und (b) Stabilität des Off-Policy-Lernens, bei dem Agenten aus dem Verhalten anderer Agenten lernen. Wir nutzen diese Erkenntnisse, um Hyperparameter-Sweeps zu beschleunigen, bei denen alle beteiligten Agenten gleichzeitig laufen und ihre Erfahrungen über ein gemeinsames Replay-Modul teilen. Dazu analysieren wir die Bias-Varianz-Tradeoffs in V-trace, einer Form der Importance Sampling für Actor-Critic-Methoden. Auf Basis dieser Analyse argumentieren wir für die Mischung von aus dem Replay stammenden Erfahrungen mit on-policy-Erfahrungen und schlagen ein neues Trust-Region-Schema vor, das effektiv auf Datenausbreitungen skaliert, bei denen V-trace instabil wird. Wir liefern umfassende empirische Validierung der vorgeschlagenen Lösung. Zudem zeigen wir die Vorteile dieser Architektur, indem wir eine state-of-the-art-Daten-Effizienz bei Atari-Agents demonstrieren, die bis zu 200 Millionen Umwelt-Schritten trainiert wurden.