Command Palette
Search for a command to run...
PAN: 일반적이고 상호작용 가능하며 장기적인 시계열 세계 시뮬레이션을 위한 월드 모델
PAN: 일반적이고 상호작용 가능하며 장기적인 시계열 세계 시뮬레이션을 위한 월드 모델
초록
세계 모델은 지능형 에이전트가 자신의 행동에 대한 세계의 변화를 상상하고 예측하며 추론할 수 있도록 하여, 계획과 전략 수립을 가능하게 한다. 최근의 비디오 생성 모델은 현실적인 시각적 시퀀스를 생성할 수는 있으나, 일반적으로 인과적 제어나 상호작용, 장기적 일관성 없이 '프롬프트에서 전체 비디오'로 작동하는 방식을 따르며, 의도적인 추론을 위해 필요한 요소들을 충족하지 못한다. 반면 기존의 세계 모델링 연구들은 보통 물리적 환경, 게임, 3D 시나리오와 같은 제한된 영역에 초점을 두고 있으며, 깊이와 제어 가능성 측면에서 제한적이며, 다양한 환경과 상호작용 형식 간의 일반화에 어려움을 겪는다. 본 연구에서는 역사 정보와 자연어로 표현된 행동을 조건으로 하여 고품질의 비디오 시뮬레이션을 통해 미래의 세계 상태를 예측하는 일반적이고 상호작용 가능하며 장기적 시점까지 일관된 세계 모델인 PAN을 제안한다. PAN은 대규모 언어 모델(LLM) 기반의 자기회귀적 잠재 동역학 백본을 활용하는 생성형 잠재 예측(GLP) 아키텍처를 채택한다. 이는 텍스트 기반 지식을 기반으로 시뮬레이션을 정립하고, 자연어로 지정된 행동에 조건을 붙일 수 있도록 하며, 시각적 관측의 인지적 세부성과 시간적 일관성을 재구성하는 비디오 디퓨전 디코더와 결합함으로써, 잠재 공간 내 추론(상상)과 실현 가능한 세계 동역학(현실) 간의 통합을 달성한다. 다양한 영역을 아우르는 대규모 비디오-행동 쌍을 기반으로 훈련된 PAN은 개방형 환경에서 자연어 행동 조건에 따라 시뮬레이션을 수행할 수 있으며, 일관성 있고 장기적인 동역학을 구현한다. 광범위한 실험 결과는 PAN이 다른 비디오 생성 모델과 세계 모델 대비 행동 조건화된 세계 시뮬레이션, 장기 예측, 시뮬레이션 기반 추론에서 뛰어난 성능을 보임을 입증하며, 향후 추론과 행동을 위한 미래 세계 상태의 예측 시뮬레이션을 가능하게 하는 일반화된 세계 모델로의 전환을 위한 중요한 한 걸음을 내딛었다.