하루 전

4DNeX: 피드포워드 4D 생성 모델링의 단순화

Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu
4DNeX: 피드포워드 4D 생성 모델링의 단순화
초록

우리는 단일 이미지로부터 4차원(즉, 동적 3차원) 장면 표현을 생성하기 위한 최초의 전방향(Feed-forward) 프레임워크인 4DNeX를 제안한다. 기존의 계산량이 크고 최적화에 의존하거나 다중 프레임 영상 입력을 필요로 하는 방법들과 달리, 4DNeX는 사전 학습된 비디오 확산 모델을 미세 조정함으로써 효율적이고 엔드 투 엔드의 이미지-4D 변환을 가능하게 한다. 구체적으로, 1) 4차원 데이터의 부족 문제를 완화하기 위해, 고도의 재구성 기법을 활용하여 생성된 고품질 4차원 레이블을 갖는 대규모 데이터셋인 4DNeX-10M을 구축하였다. 2) RGB와 XYZ 시계열을 공동으로 모델링하는 통합적인 6차원 비디오 표현을 도입함으로써, 외관과 기하학적 구조 모두에 대한 체계적인 학습을 촉진하였다. 3) 사전 학습된 비디오 확산 모델을 4차원 모델링에 재활용하기 위한 간단하면서도 효과적인 적응 전략들을 제안하였다. 4DNeX는 고해상도의 동적 포인트 클라우드를 생성하여 새로운 시점에서의 비디오 합성을 가능하게 한다. 광범위한 실험을 통해 4DNeX가 기존의 4차원 생성 기법들에 비해 효율성과 일반화 능력에서 뛰어나며, 이미지에서 4차원 모델링으로의 확장 가능한 솔루션을 제공함으로써, 동적 장면 진화를 시뮬레이션하는 생성형 4차원 세계 모델의 기반을 마련하고 있다.