HyperAIHyperAI

Command Palette

Search for a command to run...

Der Reaktor: Ein schnelles und stichproben-effizientes Actor-Critic-Agent für Reinforcement Learning

Audrunas Gruslys; Will Dabney; Mohammad Gheshlaghi Azar; Bilal Piot; Marc Bellemare; Remi Munos

Zusammenfassung

In dieser Arbeit stellen wir eine neue Agentenarchitektur vor, die Reactor genannt wird. Diese Architektur kombiniert mehrere algorithmische und architektonische Beiträge, um einen Agenten zu erzeugen, der eine höhere Stichproben-Effizienz als Prioritized Dueling DQN (Wang et al., 2016) und Categorical DQN (Bellemare et al., 2017) aufweist und gleichzeitig eine bessere Laufzeitleistung als A3C (Mnih et al., 2016) bietet. Unser erster Beitrag ist ein neuer Policy Evaluation Algorithmus, der Distributional Retrace heißt. Dieser Algorithmus führt Multi-Schritt Off-Policy-Updates in den Bereich des distributionellen Reinforcement Learnings ein. Der gleiche Ansatz kann verwendet werden, um mehrere Klassen von Multi-Schritt Policy Evaluation Algorithmen, die für die Erwartungswertbewertung entwickelt wurden, in distributionelle Algorithmen zu konvertieren. Als Nächstes führen wir den \b{eta}-Leave-One-Out Policy Gradient Algorithmus ein, der das Verhältnis zwischen Varianz und Bias durch die Verwendung von Aktionswerten als Baseline verbessert. Unser letzter algorithmischer Beitrag ist ein neuer prioritierter Replay-Algorithmus für Sequenzen, der die zeitliche Lokalität benachbarter Beobachtungen ausnutzt, um eine effizientere Replay-Priorisierung zu ermöglichen. Anhand der Atari 2600-Benchmarks zeigen wir, dass jede dieser Innovationen sowohl zur Stichproben-Effizienz als auch zur endgültigen Agentenleistung beiträgt. Schließlich demonstrieren wir, dass Reactor nach 200 Millionen Frames und weniger als einem Tag Training den Stand der Technik erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Der Reaktor: Ein schnelles und stichproben-effizientes Actor-Critic-Agent für Reinforcement Learning | Paper | HyperAI