11일 전

매트릭스-3D: 전방위 탐색 가능한 3D 세계 생성

Zhongqi Yang, Wenhang Ge, Yuqi Li, Jiaqi Chen, Haoyuan Li, Mengyin An, Fei Kang, Hua Xue, Baixin Xu, Yuyang Yin, Eric Li, Yang Liu, Yikai Wang, Hao-Xiang Guo, Yahui Zhou
매트릭스-3D: 전방위 탐색 가능한 3D 세계 생성
초록

단일 이미지 또는 텍스트 프롬프트로부터 탐색 가능한 3D 세계를 생성하는 것은 공간 지능의 핵심 요소로 자리 잡고 있다. 최근 연구들은 영상 모델을 활용하여 광범위하고 일반화 가능한 3D 세계 생성을 달성하고자 했으나, 기존 방법들은 생성된 장면의 범위가 제한적이라는 문제를 겪고 있다. 본 연구에서는 조건부 영상 생성과 원형 3D 재구성 기법을 결합하여, 광각 표현을 활용한 광역적이고 전방위적인 탐색 가능한 3D 세계 생성을 가능하게 하는 Matrix-3D 프레임워크를 제안한다. 먼저, 장면 메시 렌더링을 조건으로 사용하는 궤적 유도형 원형 영상 확산 모델을 학습함으로써 고해상도且 기하학적으로 일관된 장면 영상 생성을 실현한다. 원형 장면 영상을 3D 세계로 변환하기 위해 두 가지 별도의 방법을 제안한다: (1) 빠른 3D 장면 재구성을 위한 전방향 대규모 원형 재구성 모델과 (2) 정확하고 세밀한 3D 장면 재구성을 위한 최적화 기반 파이프라인이다. 효과적인 학습을 지원하기 위해, 깊이 정보 및 궤적 레이블이 포함된 총 116,000개의 고품질 정적 원형 영상 시퀀스를 포함하는, 세계 최초의 대규모 합성 데이터셋인 Matrix-Pano 데이터셋을 소개한다. 광범위한 실험을 통해 제안하는 프레임워크가 원형 영상 생성 및 3D 세계 생성 측면에서 최신 기술 수준의 성능을 달성함을 입증하였다. 자세한 내용은 https://matrix-3d.github.io 를 참조하시기 바란다.