HyperAIHyperAI
il y a 2 mois

Soft Actor-Critic : Apprentissage par renforcement profond avec un acteur stochastique et une entropie maximale hors politique

Tuomas Haarnoja; Aurick Zhou; Pieter Abbeel; Sergey Levine
Soft Actor-Critic : Apprentissage par renforcement profond avec un acteur stochastique et une entropie maximale hors politique
Résumé

Les algorithmes d'apprentissage par renforcement profond (RL) sans modèle ont été démontrés sur une gamme de tâches de prise de décision et de contrôle complexes. Cependant, ces méthodes souffrent généralement de deux défis majeurs : une complexité échantillonnale très élevée et des propriétés de convergence fragiles, nécessitant un réglage minutieux des hyperparamètres. Ces deux défis limitent considérablement l'application de telles méthodes à des domaines réels et complexes. Dans cet article, nous proposons le soft actor-critic, un algorithme d'apprentissage par renforcement profond sans politique basé sur le cadre d'apprentissage par renforcement à entropie maximale. Dans ce cadre, l'acteur vise à maximiser la récompense attendue tout en maximisant l'entropie. Autrement dit, réussir la tâche tout en agissant aussi aléatoirement que possible. Les méthodes d'apprentissage profond précédentes basées sur ce cadre ont été formulées comme des méthodes Q-learning. En combinant les mises à jour sans politique avec une formulation stable d'acteur-critique stochastique, notre méthode atteint des performances de pointe sur une gamme de tâches de contrôle continu基准任务 (benchmark tasks), surpassant les méthodes antérieures avec et sans politique. De plus, nous montrons que, contrairement aux autres algorithmes sans politique, notre approche est très stable, obtenant des performances très similaires pour différentes graines aléatoires.注:在最后一句中,“基准任务”(benchmark tasks)一词被直接翻译为“tâches de référence”,以保持专业性和准确性。修正后的翻译:En outre, nous démontrons que, contrairement aux autres algorithmes sans politique, notre approche est très stable, obtenant des performances très similaires pour différentes graines aléatoires.