Command Palette
Search for a command to run...

초록
4차원 세계 모델링(4D world modeling) 분야는 공간적 기하학과 시간적 동역학을 함께 포착하는 것을 목표로 하며, 최근 대규모 생성 모델과 다중모달 학습의 발전에 힘입어 놀라운 진전을 이뤘다. 그러나 진정으로 일반적인 4D 세계 모델의 개발은 여전히 고품질 데이터의 부족이라는 근본적인 제약에 직면해 있다. 기존의 데이터셋과 벤치마크는 4D 기하학적 재구성, 미래 예측, 카메라 제어 영상 생성과 같은 핵심 과제를 지원하기 위해 요구되는 동적 복잡성, 다영역 다양성, 그리고 공간-시간 주석을 충분히 제공하지 못하는 경우가 많다. 이 격차를 해결하기 위해, 본 연구에서는 4D 세계 모델링을 위해 특별히 설계된 대규모, 다영역, 다모달 데이터셋인 OmniWorld를 제안한다. OmniWorld는 새로 수집한 OmniWorld-Game 데이터셋과 다양한 영역을 아우르는 여러 정제된 공개 데이터셋으로 구성되어 있다. 기존의 합성 데이터셋과 비교할 때, OmniWorld-Game은 더 풍부한 모달리티 커버리지, 더 큰 규모, 그리고 더 현실적인 동적 상호작용을 제공한다. 이 데이터셋을 기반으로, 현재 최첨단(SOTA) 기법들이 복잡한 4D 환경을 모델링하는 데 가지는 한계를 드러내는 도전적인 벤치마크를 구축하였다. 또한, 기존의 SOTA 모델을 OmniWorld에서 미세조정(fine-tuning)하면 4D 재구성 및 영상 생성 과제에서 뚜렷한 성능 향상이 나타나며, 이는 OmniWorld가 훈련 및 평가에 강력한 자원임을 강력하게 입증한다. 우리는 OmniWorld가 일반 목적의 4D 세계 모델 개발을 가속화하는 촉매제가 되기를 기대하며, 궁극적으로 기계가 물리 세계에 대해 종합적으로 이해할 수 있도록 하는 데 기여할 수 있기를 기대한다.