
초록
우리는 정책과 가치 함수 학습을 별개의 단계로 분리함으로써 기존의 온폴리시 액터-크리틱 방법을 개선한 강화학습 프레임워크인 '단계적 정책 그라디언트(Phasic Policy Gradient, PPG)'를 제안한다. 기존의 방법에서는 정책과 가치 함수를 표현하기 위해 공유 네트워크를 사용할지, 또는 별도의 네트워크를 사용할지 선택해야 했다. 별도의 네트워크를 사용하면 목적 간 간섭을 피할 수 있으나, 공유 네트워크를 사용하면 유용한 특징을 공유할 수 있다는 장점이 있다. PPG는 최적화를 두 단계로 나누어, 하나는 학습을 촉진하는 단계이고, 다른 하나는 특징을 정제하는 단계로 구성함으로써 두 가지 장점을 모두 실현한다. 또한 PPG는 샘플 재사용 수준을 높여 가치 함수를 더 적극적으로 최적화할 수 있도록 한다. PPO와 비교했을 때, PPG는 도전적인 Procgen 벤치마크에서 샘플 효율성이 크게 향상됨을 확인했다.