17일 전

DNA: 이중 네트워크 아키텍처를 갖춘 근접 정책 최적화

Matthew Aitchison, Penny Sweetser
DNA: 이중 네트워크 아키텍처를 갖춘 근접 정책 최적화
초록

이 논문은 딥 액터-크리틱 강화학습 모델에서 가치 함수와 정책을 동시에 학습하는 문제를 탐구한다. 우리는 이러한 두 함수를 공동으로 학습하는 일반적인 방법이, 이 두 작업 간의 노이즈 수준에 약 1개의 지수 차이가 존재함으로써 하위 최적임을 발견하였다. 대신, 이 두 작업을 독립적으로 학습하되, 제약된 디스틸레이션(정제) 단계를 도입함으로써 성능이 크게 향상됨을 보여준다. 또한 정책 그래디언트의 노이즈 수준은 더 낮은 분산(variance)을 갖는 리턴 추정을 사용함으로써 감소시킬 수 있으며, 가치 학습의 노이즈 수준은 더 낮은 편향(bias) 추정을 사용함으로써 감소함을 확인하였다. 이러한 통찰을 바탕으로, Proximal Policy Optimization(PPO)에 대한 확장인 이중 네트워크 아키텍처(Dual Network Architecture, DNA)를 제안한다. DNA는 기존 모델을 크게 능가하며, 테스트한 다섯 환경 중 네 개에서 인기 있는 Rainbow DQN 알고리즘의 성능을 초과한다. 특히 더 어려운 확률적 제어 환경에서도 동일한 성능을 달성한다.