2달 전

Atari를 위한 모델 기반 강화 학습

Lukasz Kaiser; Mohammad Babaeizadeh; Piotr Milos; Blazej Osinski; Roy H Campbell; Konrad Czechowski; Dumitru Erhan; Chelsea Finn; Piotr Kozakowski; Sergey Levine; Afroz Mohiuddin; Ryan Sepassi; George Tucker; Henryk Michalewski
Atari를 위한 모델 기반 강화 학습
초록

모델 없는 강화학습(RL)은 이미지 관찰로부터도 아타리 게임과 같은 복잡한 작업에 대한 효과적인 정책을 학습하는 데 사용될 수 있습니다. 그러나 이는 일반적으로 인간이 동일한 게임을 학습하는 데 필요한 것보다 훨씬 많은 상호작용이 필요합니다. 사람들은 어떻게 이렇게 빠르게 배울 수 있을까요? 답의 일부는 사람들이 게임의 작동 방식을 이해하고 원하는 결과를 초래할 행동을 예측할 수 있다는 점에 있을 수 있습니다. 본 논문에서는 비디오 예측 모델이 이러한 방법으로 에이전트가 모델 없는 방법보다 적은 상호작용으로 아타리 게임을 해결하도록 지원할 수 있는 방법을 탐구합니다. 우리는 비디오 예측 모델 기반의 완전한 모델 기반 딥 RL 알고리즘인 시뮬레이티드 정책 학습(SimPLe)을 설명하고, 여러 모델 구조를 비교하며, 우리 환경에서 최상의 결과를 제공하는 새로운 구조를 제시합니다. 실험에서는 에이전트와 환경 간 10만 번의 상호작용(실시간 플레이로 약 2시간에 해당)이라는 저 데이터 조건 하에서 다양한 아타리 게임에서 SimPLe를 평가하였습니다. 대부분의 게임에서 SimPLe는 최신의 모델 없는 알고리즘들을 능가하였으며, 일부 게임에서는 그 성능 차이가 한 자릿수 이상이었습니다.