HyperAIHyperAI

Command Palette

Search for a command to run...

Soft Actor-Critic: Off-Policy Maximum Entropy Tiefes Reinforcement Learning mit einem stochastischen Akteur

Tuomas Haarnoja; Aurick Zhou; Pieter Abbeel; Sergey Levine

Zusammenfassung

Modellfreie tiefen Reinforcement-Learning (RL)-Algorithmen wurden in einer Reihe von anspruchsvollen Entscheidungs- und Kontrollaufgaben demonstriert. Diese Methoden leiden jedoch in der Regel unter zwei wesentlichen Herausforderungen: sehr hoher Stichprobenkomplexität und brüchigen Konvergenzeigenschaften, was eine sorgfältige Anpassung der Hyperparameter erfordert. Beide Herausforderungen begrenzen die Anwendbarkeit solcher Methoden auf komplexe, realweltliche Domains erheblich. In dieser Arbeit schlagen wir Soft Actor-Critic vor, einen modellfreien, off-policy tiefen RL-Algorithmus, der auf dem Maximum-Entropy-Reinforcement-Learning-Rahmen basiert. In diesem Rahmen strebt der Akteur an, den erwarteten Reward zu maximieren, während gleichzeitig die Entropie maximiert wird. Das heißt, die Aufgabe erfolgreich zu bewältigen, während so zufällig wie möglich zu handeln. Frühere tiefere RL-Methoden innerhalb dieses Rahmens wurden als Q-Learning-Methoden formuliert. Durch die Kombination von off-policy-Aktualisierungen mit einer stabilen stochastischen Akteur-Kritiker-Formulierung erreicht unser Verfahren Spitzenleistungen bei einer Reihe kontinuierlicher Kontroll-Benchmark-Aufgaben und übertrifft dabei sowohl frühere on-policy- als auch off-policy-Verfahren. Darüber hinaus zeigen wir, dass im Gegensatz zu anderen off-policy-Algorithmen unser Ansatz sehr stabil ist und bei verschiedenen Zufallssamen nahezu identische Leistungen erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Soft Actor-Critic: Off-Policy Maximum Entropy Tiefes Reinforcement Learning mit einem stochastischen Akteur | Paper | HyperAI