2달 전

처벌된 점 확률 거리로 정책 최적화: 근접 정책 최적화의 대안

Xiangxiang Chu
처벌된 점 확률 거리로 정책 최적화: 근접 정책 최적화의 대안
초록

Trust Region Policy Optimization (TRPO)의 가장 성공적인 변형 및 개선으로서 Proximal Policy Optimization (PPO)는 효율적인 데이터 활용, 간편한 구현, 그리고 우수한 병렬 처리 능력 등의 장점으로 다양한 분야에서 널리 적용되어 왔습니다. 본 논문에서는 총 분산 발산의 제곱에 대한 하한을 제공하는 첫 번째 차수 그래디언트 강화 학습 알고리즘인 Penalized Point Probability Distance를 이용한 정책 최적화 (POP3D)를 또 다른 강력한 변형으로 제안합니다. 먼저, 우리의 방법론이 부분적으로 동기를 부여받은 몇 가지 일반적으로 사용되는 알고리즘들의 단점을 논합니다. 다음으로, 이러한 단점을 극복하기 위해 POP3D를 적용하는 방법을 설명합니다. 세 번째로, 해의 다양체(解の多様体, solution manifold) 관점에서 POP3D의 메커니즘을 자세히 살펴봅니다. 마지막으로, 공통 벤치마크를 기반으로 여러 최신 알고리즘들과의 정량적 비교를 수행합니다. 시뮬레이션 결과는 POP3D가 PPO와 비교하여 매우 경쟁력 있음을 보여줍니다. 또한, 우리의 코드는 https://github.com/paperwithcode/pop3d에서 공개되었습니다.