Command Palette
Search for a command to run...
Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

초록
인간은 다중 감각의 유기적 협력(다중감각 융합)을 통해 추상적 개념을 학습하며, 형성된 이러한 인지 표현은 때로는 단일 감각 모달리티로부터도 다시 떠올릴 수 있다. 이 원리를 영감으로 삼아, 공간 인지에 대한 인간의 개념 학습을 최소한의 시뮬레이션으로 구현한 모델인 Concerto를 제안한다. Concerto는 3D 내모달 자기-정제(self-distillation)와 2D-3D 간의 교차모달 공동 임베딩(cross-modal joint embedding)을 결합한 구조를 가진다. 비록 간소한 구조를 지니고 있으나, Concerto는 제로샷(Zero-shot) 시각화 실험을 통해 보다 일관성 있고 정보량이 풍부한 공간 특징을 학습함을 입증하였다. 3D 장면 인지에 대한 선형 탐사(Linear Probing)에서, Concerto는 독립적인 최신 2D 및 3D 자기지도 학습 모델보다 각각 14.2%, 4.8% 높은 성능을 기록하였으며, 이들의 특징 병합 결과보다도 우수한 성능을 보였다. 전반적인 미세조정(Full Fine-tuning)을 수행한 경우, Concerto는 여러 장면 이해 벤치마크에서 새로운 최고 성능(SOTA)을 달성하였으며, 예를 들어 ScanNet 데이터셋에서 80.7%의 mIoU를 기록하였다. 또한, 비디오 기반 높이 올린 포인트 클라우드(Video-lifted Point Cloud)를 위한 공간 인지에 특화된 Concerto의 변형 모델과, Concerto의 표현을 CLIP의 언어 공간으로 선형으로 변환하는 번역기(Translator)를 제안한다. 이는 개방형 환경(Open-world)에서의 인지 기능을 가능하게 한다. 본 연구 결과는 Concerto가 뛰어난 세부 기하학적 및 의미적 일관성을 지닌 공간 표현을 자발적으로 형성함을 시사한다.