
초록
본 논문은 모델 자유형과 모델 기반 강화학습(RL) 방법을 단일 신경망에 통합하는 새로운 딥 강화학습(RL) 아키텍처인 가치 예측 네트워크(Value Prediction Network, VPN)를 제안합니다. 일반적인 모델 기반 RL 방법과 달리, VPN은 추상 상태가 미래 관찰이 아닌 미래 가치(할인된 보상의 합)를 옵션 조건부로 예측하도록 훈련되는 동역학 모델을 학습합니다. 실험 결과, 신중한 계획이 필요하지만 정확한 관찰 예측 모델을 구축하기 어려운 확률적 환경에서 VPN이 모델 자유형 및 모델 기반 베이스라인보다 여러 가지 장점을 가지고 있음을 보여줍니다. 또한, 짧은 전방 계획(short-lookahead planning)으로도 여러 아타리 게임에서 딥 Q-네트워크(Deep Q-Network, DQN)를 능가하는 성능을 보여주어, 좋은 상태 표현을 학습하는 새로운 방식으로서의 잠재력을 입증하였습니다.