17일 전

계획 기반 자기지도 세계 모델을 통한 절차적 일반화

Ankesh Anand, Jacob Walker, Yazhe Li, Eszter Vértes, Julian Schrittwieser, Sherjil Ozair, Théophane Weber, Jessica B. Hamrick
계획 기반 자기지도 세계 모델을 통한 절차적 일반화
초록

모델 기반 강화학습의 핵심 약속 중 하나는 세계에 대한 내부 모델을 활용해 새로운 환경과 과제에 대해 예측을 수행함으로써 일반화 능력을 갖는다는 점이다. 그러나 기존 연구가 일반화 성능을 평가할 때 모델 자유형 에이전트에 주로 초점을 맞추었기 때문에, 모델 기반 에이전트의 일반화 능력은 여전히 명확히 이해되지 않고 있다. 본 연구에서는 모델 기반 에이전트의 일반화 능력을 모델 자유형 에이전트와 직접 비교하여 명확히 측정한다. 분석의 초점은 강력한 모델 기반 에이전트인 MuZero(Schrittwieser 등, 2020)에 두며, 프로시저적 일반화와 과제 일반화 두 가지 측면에서 성능을 평가한다. 우리는 프로시저적 일반화의 세 가지 핵심 요인—계획 수립(planning), 자기지도 표현 학습(self-supervised representation learning), 프로시저 데이터의 다양성—을 규명하고, 이 세 가지 기법을 결합함으로써 Procgen(Cobbe 등, 2019)에서 최신 기준에 해당하는 일반화 성능과 데이터 효율성을 달성함을 보여준다. 그러나 이러한 요인들이 Meta-World(Yu 등, 2019)의 과제 일반화 벤치마크에서는 항상 동일한 이점을 제공하지는 않음을 발견하였으며, 이는 전이(transfer)가 여전히 도전 과제임을 시사하며, 프로시저적 일반화와는 다른 접근 방식이 필요할 수 있음을 시사한다. 종합적으로 본 연구는 일반화 가능한 에이전트를 구축하기 위해서는 단일 과제, 모델 자유형 패러다임을 넘어서, 풍부하고 프로시저적이며 다중 과제로 구성된 환경에서 자기지도 방식으로 훈련된 모델 기반 에이전트로 나아가야 한다고 제안한다.

계획 기반 자기지도 세계 모델을 통한 절차적 일반화 | 최신 연구 논문 | HyperAI초신경