15일 전
방 안의 DINO: 3D 세그멘테이션을 위한 2D 기반 모델 활용
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe

초록
대규모 이미지 데이터셋으로 훈련된 시각 기반 모델(Vision Foundation Models, VFMs)은 고품질의 특징을 제공하며, 2차원(2D) 시각 인식 분야에서 큰 발전을 이끌어냈다. 그러나 2D 이미지와 함께 3차원(3D) 포인트 클라우드 데이터셋이 일반적으로 존재함에도 불구하고, VFMs의 3D 시각 분야 잠재력은 여전히 크게 미개척된 상태이다. 2D-3D 융합에 대한 많은 연구가 진행되었음에도 불구하고, 최근 최신 3D 모델들은 주로 3D 데이터에 집중하고 있으며, VFMs를 3D 모델에 통합하는 방안은 여전히 탐색이 부족한 상태이다. 본 연구에서는 이러한 경향에 도전하여, 2D 기반 모델의 특징을 추출하고 이를 3D 공간으로 투영한 후, 3D 포인트 클라우드 분할 모델에 주입하는 간단하면서도 효과적인 방법인 DITR(Distilled Image-to-3D Representation)를 제안한다. DITR는 실내 및 실외 3D 세분화 기준 평가에서 최신 기술 수준의 성능을 달성한다. 또한 추론 시 이미지가 제공되지 않는 상황에서도 VFMs를 활용할 수 있도록, 2D 기반 모델을 3D 백본에 다수(distillation)하는 사전 훈련 전략을 제안한다. 2D VFMs로부터 추출한 지식을 바탕으로 3D 백본을 초기화함으로써, 다양한 데이터셋에서 하류 3D 분할 작업에 대한 성능을 크게 향상시키는 강력한 기반을 구축한다.