17일 전

강화학습을 위한 소형 월드 모델

Jan Robine, Tobias Uelwer, Stefan Harmeling
강화학습을 위한 소형 월드 모델
초록

샘플 효율성은 강화학습의 핵심적인 과제로 남아 있다. 모델 기반 알고리즘은 환경 모델을 활용하여 시뮬레이션을 통해 데이터를 보다 효과적으로 활용하려는 접근을 취한다. 본 연구에서는 관측값을 인코딩하기 위해 벡터 양자화-변분 오토인코더(VQ-VAE)를 기반으로 한 새로운 신경망 아키텍처를 제안하며, 다음 상태의 임베딩 인덱스를 예측하기 위해 합성곱 LSTM(Convolutional LSTM)을 사용한다. 이 세계 모델(world model)에서 생성된 시뮬레이션 경험만을 이용해 모델리스 PPO 에이전트를 학습시킨다. 우리는 Kaiser 등(2020)이 제안한 설정을 채택하였으며, 이는 실제 환경과의 상호작용을 10만 번 이내로 제한한다. 본 방법을 36개의 Atari 환경에서 적용한 결과, SimPLe 알고리즘과 비슷한 성능을 달성하면서도 모델 크기가 훨씬 작음을 확인하였다.

강화학습을 위한 소형 월드 모델 | 최신 연구 논문 | HyperAI초신경