HyperAIHyperAI

Command Palette

Search for a command to run...

Mittler Schauspieler Kritiker

Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1

Zusammenfassung

Wir schlagen einen neuen Algorithmus vor, den Mean Actor-Critic (MAC), für das Reinforcement Learning mit diskreten Aktionen und kontinuierlichen Zuständen. MAC ist ein Policy-Gradienten-Algorithmus, der die explizite Darstellung aller Aktionswerte des Agenten verwendet, um den Gradienten der Politik zu schätzen, anstatt nur die tatsächlich ausgeführten Aktionen zu verwenden. Wir beweisen, dass dieser Ansatz im Vergleich zu traditionellen Actor-Critic-Methoden die Varianz in der Schätzung des Policy-Gradients reduziert. Wir präsentieren empirische Ergebnisse in zwei Kontrollbereichen und sechs Atari-Spielen, bei denen MAC mit den besten aktuellen Policy-Suchalgorithmen konkurrieren kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp