
초록
샘플 효율성은 강화학습의 핵심적인 과제로 남아 있다. 모델 기반 알고리즘은 환경 모델을 활용하여 시뮬레이션을 통해 데이터를 보다 효과적으로 활용하려는 접근을 취한다. 본 연구에서는 관측값을 인코딩하기 위해 벡터 양자화-변분 오토인코더(VQ-VAE)를 기반으로 한 새로운 신경망 아키텍처를 제안하며, 다음 상태의 임베딩 인덱스를 예측하기 위해 합성곱 LSTM(Convolutional LSTM)을 사용한다. 이 세계 모델(world model)에서 생성된 시뮬레이션 경험만을 이용해 모델리스 PPO 에이전트를 학습시킨다. 우리는 Kaiser 등(2020)이 제안한 설정을 채택하였으며, 이는 실제 환경과의 상호작용을 10만 번 이내로 제한한다. 본 방법을 36개의 Atari 환경에서 적용한 결과, SimPLe 알고리즘과 비슷한 성능을 달성하면서도 모델 크기가 훨씬 작음을 확인하였다.