17일 전

Lexicon3D: 복잡한 3D 장면 이해를 위한 시각 기반 모델 탐색

Man, Yunze, Zheng, Shuhong, Bao, Zhipeng, Hebert, Martial, Gui, Liang-Yan, Wang, Yu-Xiong
Lexicon3D: 복잡한 3D 장면 이해를 위한 시각 기반 모델 탐색
초록

3차원 복잡한 장면 이해는 점점 더 많은 주목을 받고 있으며, 장면 인코딩 전략이 이 성공에 핵심적인 역할을 하고 있다. 그러나 다양한 시나리오에서 최적의 장면 인코딩 전략은 여전히 명확하지 않으며, 이미지 기반 전략과 비교했을 때 특히 그 차이가 두드러진다. 이러한 문제를 해결하기 위해 본 연구는 3차원 장면 이해를 위한 다양한 시각 인코딩 모델을 체계적으로 탐구하고, 각 모델이 다양한 상황에서 가지는 강점과 한계를 규명한다. 평가 대상은 이미지 기반, 비디오 기반, 3차원 기반의 베이스라인 모델을 포함한 총 7종의 비전 기반 인코더이며, 시각-언어 장면 추론, 시각적 기반(Visual Grounding), 세그멘테이션, 등록(Registration)의 네 가지 작업을 통해 평가를 수행한다. 각 작업은 장면 이해의 서로 다른 측면에 초점을 맞추고 있다. 평가 결과에서 주요 발견은 다음과 같다: DINOv2는 우수한 성능을 보였으며, 비디오 기반 모델은 객체 수준의 작업에서 뛰어난 성능을 보였고, 확산 모델은 기하학적 작업에 유리한 특성을 지녔으며, 언어 사전 훈련된 모델은 언어 관련 작업에서 예상치 못한 한계를 드러냈다. 이러한 통찰은 기존의 통념을 도전하며, 시각 기반 모델을 활용하는 데 새로운 시각을 제시하며, 향후 시각-언어 및 장면 이해 작업에서 보다 유연한 인코더 선택의 필요성을 강조한다. 코드: https://github.com/YunzeMan/Lexicon3D