Soft Actor-Critic: Off-Policy Maximum Entropy Tiefes Reinforcement Learning mit einem stochastischen Akteur

Modellfreie tiefen Reinforcement-Learning (RL)-Algorithmen wurden in einer Reihe von anspruchsvollen Entscheidungs- und Kontrollaufgaben demonstriert. Diese Methoden leiden jedoch in der Regel unter zwei wesentlichen Herausforderungen: sehr hoher Stichprobenkomplexität und brüchigen Konvergenzeigenschaften, was eine sorgfältige Anpassung der Hyperparameter erfordert. Beide Herausforderungen begrenzen die Anwendbarkeit solcher Methoden auf komplexe, realweltliche Domains erheblich. In dieser Arbeit schlagen wir Soft Actor-Critic vor, einen modellfreien, off-policy tiefen RL-Algorithmus, der auf dem Maximum-Entropy-Reinforcement-Learning-Rahmen basiert. In diesem Rahmen strebt der Akteur an, den erwarteten Reward zu maximieren, während gleichzeitig die Entropie maximiert wird. Das heißt, die Aufgabe erfolgreich zu bewältigen, während so zufällig wie möglich zu handeln. Frühere tiefere RL-Methoden innerhalb dieses Rahmens wurden als Q-Learning-Methoden formuliert. Durch die Kombination von off-policy-Aktualisierungen mit einer stabilen stochastischen Akteur-Kritiker-Formulierung erreicht unser Verfahren Spitzenleistungen bei einer Reihe kontinuierlicher Kontroll-Benchmark-Aufgaben und übertrifft dabei sowohl frühere on-policy- als auch off-policy-Verfahren. Darüber hinaus zeigen wir, dass im Gegensatz zu anderen off-policy-Algorithmen unser Ansatz sehr stabil ist und bei verschiedenen Zufallssamen nahezu identische Leistungen erzielt.