18일 전

입자 기반 확률적 정책 최적화

{Tie-Yan Liu, Tao Qin, Fangyun Wei, Chang Liu, Yuxuan Song, Qiwei Ye}
입자 기반 확률적 정책 최적화
초록

확률적 정책(stochastic policy)는 탐색과 불확실성 정량화에서优れた 성능을 보이기 때문에 널리 적용되어 왔다. 지수가족(exponential family) 내에서 연합 상태-행동 분포(joint state-action distribution)를 모델링함으로써 탐색의 유연성과 다모달 정책(multi-modal policies) 학습이 가능해졌으며, 딥 강화학습(Deep Reinforcement Learning, RL)의 확률적 관점도 자연스럽게 통합할 수 있게 되었다. 확률적 추론(probabilistic inference)과 강화학습 간의 연결성은 확률적 최적화 도구의 최근 발전을 활용할 수 있도록 하였다. 그러나 최근의 연구들은 주로 역 KL 발산(reverse KL divergence) 최소화에 국한되어 있으며, 이는 신뢰도를 추구하는 성향을 가지며 확률적 정책의 장점을 약화시킬 수 있다. 확률적 정책의 잠재력을 최대한 발휘하고 더 유연한 성질을 제공하기 위해서는 정책 최적화 과정에서 다양한 업데이트 규칙을 고려할 필요가 있다. 본 논문에서는 다양한 발산 또는 거리 척도(f-divergences, 워셔슈타인 거리(Wasserstein distance) 등)를 활용할 수 있는 입자 기반(probabilistic policy optimization) 프레임워크 ParPI를 제안한다. 이는 학습된 확률적 정책의 보다 우수한 확률적 행동 특성을 실현할 수 있도록 한다. 온라인 및 오프라인 설정에서의 실험을 통해 제안된 알고리즘의 효과성과 정책 최적화에 있어 다양한 불일치 측도(discrepancy measures)의 특성을 입증하였다.