계획 기반 자기지도 세계 모델을 통한 절차적 일반화

모델 기반 강화학습의 핵심 약속 중 하나는 세계에 대한 내부 모델을 활용해 새로운 환경과 과제에 대해 예측을 수행함으로써 일반화 능력을 갖는다는 점이다. 그러나 기존 연구가 일반화 성능을 평가할 때 모델 자유형 에이전트에 주로 초점을 맞추었기 때문에, 모델 기반 에이전트의 일반화 능력은 여전히 명확히 이해되지 않고 있다. 본 연구에서는 모델 기반 에이전트의 일반화 능력을 모델 자유형 에이전트와 직접 비교하여 명확히 측정한다. 분석의 초점은 강력한 모델 기반 에이전트인 MuZero(Schrittwieser 등, 2020)에 두며, 프로시저적 일반화와 과제 일반화 두 가지 측면에서 성능을 평가한다. 우리는 프로시저적 일반화의 세 가지 핵심 요인—계획 수립(planning), 자기지도 표현 학습(self-supervised representation learning), 프로시저 데이터의 다양성—을 규명하고, 이 세 가지 기법을 결합함으로써 Procgen(Cobbe 등, 2019)에서 최신 기준에 해당하는 일반화 성능과 데이터 효율성을 달성함을 보여준다. 그러나 이러한 요인들이 Meta-World(Yu 등, 2019)의 과제 일반화 벤치마크에서는 항상 동일한 이점을 제공하지는 않음을 발견하였으며, 이는 전이(transfer)가 여전히 도전 과제임을 시사하며, 프로시저적 일반화와는 다른 접근 방식이 필요할 수 있음을 시사한다. 종합적으로 본 연구는 일반화 가능한 에이전트를 구축하기 위해서는 단일 과제, 모델 자유형 패러다임을 넘어서, 풍부하고 프로시저적이며 다중 과제로 구성된 환경에서 자기지도 방식으로 훈련된 모델 기반 에이전트로 나아가야 한다고 제안한다.