HyperAI초신경
10일 전

LangScene-X: TriMap 비디오 확산을 활용한 일반화 가능한 3D 언어 임베딩 장면 재구성

Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan
LangScene-X: TriMap 비디오 확산을 활용한 일반화 가능한 3D 언어 임베딩 장면 재구성
초록

2D 이미지에서 오픈-보카블리 시나리오 이해를 통해 3D 구조를 복원하는 것은 기본적이지만 어려운 작업입니다. 최근의 발전은 임베디드 언어 정보를 사용하여 장면별 최적화를 수행함으로써 이를 달성하였습니다. 그러나 이들 방법은 캘리브레이션된 밀도 높은 시점 재구성 패러다임에 크게 의존하기 때문에, 제한적인 시점이 제공될 때 심각한 렌더링 아티팩트와 비현실적인 의미 합성을 겪게 됩니다. 본 논문에서는 재구성과 이해를 위한 3D 일관된 다중 모달 정보 생성을 통합하는 새로운 생성 프레임워크인 LangScene-X를 소개합니다. 더 일관된 새로운 관측치 생성 능력을 바탕으로, 우리는 단지 희소한 시점만으로 일반화 가능한 3D 언어 임베딩 장면을 구축할 수 있습니다. 구체적으로, 먼저 진행적인 지식 통합을 통해 희소 입력에서 외양(RGB), 기하학(노말 벡터), 그리고 의미(세그멘테이션 맵)을 생성할 수 있는 TriMap 비디오 확산 모델을 훈련시킵니다. 또한, 대규모 이미지 데이터셋에서 훈련된 Language Quantized Compressor(LQC)를 제안하여, 장면별 재훈련 없이 효율적으로 언어 임베딩을 인코딩할 수 있도록 합니다. 마지막으로, 3D 장면의 표면에 언어 정보를 맞춤으로써 언어 표면 필드를 재구성하여 개방형 언어 질의가 가능하도록 합니다. 실제 데이터에 대한 광범위한 실험 결과는 LangScene-X가 성능과 일반화 능력 면에서 최신 방법론보다 우수함을 입증하였습니다. 프로젝트 페이지: https://liuff19.github.io/LangScene-X.