HyperAIHyperAI

Command Palette

Search for a command to run...

Off-Policy Actor-Critic mit geteiltem Experience Replay

Simon Schmitt Matteo Hessel Karen Simonyan

Zusammenfassung

Wir untersuchen die Kombination von Actor-Critic-Verstärkungslernalgorithmen mit uniformem, großskaligem Experience Replay und schlagen Lösungen für zwei Herausforderungen vor: (a) effizientes Actor-Critic-Lernen mit Experience Replay und (b) Stabilität des Off-Policy-Lernens, bei dem Agenten aus dem Verhalten anderer Agenten lernen. Wir nutzen diese Erkenntnisse, um Hyperparameter-Sweeps zu beschleunigen, bei denen alle beteiligten Agenten gleichzeitig laufen und ihre Erfahrungen über ein gemeinsames Replay-Modul teilen. Dazu analysieren wir die Bias-Varianz-Tradeoffs in V-trace, einer Form der Importance Sampling für Actor-Critic-Methoden. Auf Basis dieser Analyse argumentieren wir für die Mischung von aus dem Replay stammenden Erfahrungen mit on-policy-Erfahrungen und schlagen ein neues Trust-Region-Schema vor, das effektiv auf Datenausbreitungen skaliert, bei denen V-trace instabil wird. Wir liefern umfassende empirische Validierung der vorgeschlagenen Lösung. Zudem zeigen wir die Vorteile dieser Architektur, indem wir eine state-of-the-art-Daten-Effizienz bei Atari-Agents demonstrieren, die bis zu 200 Millionen Umwelt-Schritten trainiert wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp