2달 전

소프트 액터-크리틱: 확률적 액터를 이용한 오프-폴리시 최대 엔트로피 딥 강화학습

Tuomas Haarnoja; Aurick Zhou; Pieter Abbeel; Sergey Levine
소프트 액터-크리틱: 확률적 액터를 이용한 오프-폴리시 최대 엔트로피 딥 강화학습
초록

무모델 딥 강화학습(RL) 알고리즘은 다양한 어려운 의사결정 및 제어 과제에서 입증되었습니다. 그러나 이러한 방법은 일반적으로 두 가지 주요 문제에 직면해 있습니다: 매우 높은 샘플 복잡성과 불안정한 수렴 특성으로 인해 세심한 하이퍼파라미터 조정이 필요합니다. 이 두 가지 문제는 이러한 방법의 복잡한 실제 영역에서의 적용성을 크게 제한합니다. 본 논문에서는 최대 엔트로피 강화학습 프레임워크를 기반으로 하는 오프-폴리시 액터-크리틱 딥 RL 알고리즘인 소프트 액터-크리틱을 제안합니다. 이 프레임워크에서 액터는 예상 보상을 최대화하는 동시에 엔트로피도 최대화하려고 합니다. 즉, 작업을 성공적으로 수행하면서 가능한 한 무작위로 행동하려는 것입니다. 이 프레임워크를 기반으로 한 이전 딥 RL 방법들은 Q-러닝 방법으로 구성되어 있었습니다. 우리는 오프-폴리시 업데이트와 안정적인 확률적 액터-크리틱 구성을 결합함으로써, 연속 제어 벤치마크 과제 범위에서 최고 수준의 성능을 달성하며, 이전의 온-폴리시 및 오프-폴리시 방법들을 능가하는 결과를 얻었습니다. 또한, 다른 오프-폴리시 알고리즘들과 대조적으로 우리의 접근 방식이 매우 안정적이며, 서로 다른 난수 시드(random seeds) 간에도 매우 유사한 성능을 보이는 것을 확인하였습니다.