17일 전
아타리 게임을 위한 이산 세계 모델을 통한 마스터링
Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba

초록
지능형 에이전트는 복잡한 환경에서 목표를 달성하기 위해 과거 경험으로부터 일반화할 필요가 있다. 월드 모델은 이러한 일반화를 촉진하고, 상상된 결과로부터 행동을 학습함으로써 샘플 효율성을 높일 수 있다. 최근 일부 작업에서는 이미지 입력으로부터 월드 모델을 학습하는 것이 가능해졌지만, 성공적인 행동을 도출할 수 있을 정도로 아타리 게임을 정확히 모델링하는 것은 수년간 여전히 열린 과제였다. 우리는 강화학습 에이전트인 드림어V2(DreamerV2)를 소개한다. 이 에이전트는 강력한 월드 모델의 컴팩트한 잠재 공간 내에서 예측만을 기반으로 행동을 학습한다. 월드 모델은 이산 표현을 사용하며, 정책과 별도로 훈련된다. 드림어V2는 별도로 훈련된 월드 모델 내부에서 행동을 학습함으로써, 55개 작업으로 구성된 아타리 벤치마크에서 인간 수준의 성능을 달성한 최초의 에이전트이다. 동일한 계산 자원과 벽시계 시간 내에서 드림어V2는 2억 프레임까지 도달하며, IQN과 레인보우(Rainbow)와 같은 최고의 단일 GPU 에이전트의 최종 성능을 초과한다. 드림어V2는 연속 행동을 포함한 작업에도 적용 가능하며, 복잡한 히ュ먼로이드 로봇의 정확한 월드 모델을 학습하고, 픽셀 입력만으로도 일어서 서기와 걷기 같은 과제를 해결할 수 있다.