15일 전

방 안의 DINO: 3D 세그멘테이션을 위한 2D 기반 모델 활용

Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe
방 안의 DINO: 3D 세그멘테이션을 위한 2D 기반 모델 활용
초록

대규모 이미지 데이터셋으로 훈련된 시각 기반 모델(Vision Foundation Models, VFMs)은 고품질의 특징을 제공하며, 2차원(2D) 시각 인식 분야에서 큰 발전을 이끌어냈다. 그러나 2D 이미지와 함께 3차원(3D) 포인트 클라우드 데이터셋이 일반적으로 존재함에도 불구하고, VFMs의 3D 시각 분야 잠재력은 여전히 크게 미개척된 상태이다. 2D-3D 융합에 대한 많은 연구가 진행되었음에도 불구하고, 최근 최신 3D 모델들은 주로 3D 데이터에 집중하고 있으며, VFMs를 3D 모델에 통합하는 방안은 여전히 탐색이 부족한 상태이다. 본 연구에서는 이러한 경향에 도전하여, 2D 기반 모델의 특징을 추출하고 이를 3D 공간으로 투영한 후, 3D 포인트 클라우드 분할 모델에 주입하는 간단하면서도 효과적인 방법인 DITR(Distilled Image-to-3D Representation)를 제안한다. DITR는 실내 및 실외 3D 세분화 기준 평가에서 최신 기술 수준의 성능을 달성한다. 또한 추론 시 이미지가 제공되지 않는 상황에서도 VFMs를 활용할 수 있도록, 2D 기반 모델을 3D 백본에 다수(distillation)하는 사전 훈련 전략을 제안한다. 2D VFMs로부터 추출한 지식을 바탕으로 3D 백본을 초기화함으로써, 다양한 데이터셋에서 하류 3D 분할 작업에 대한 성능을 크게 향상시키는 강력한 기반을 구축한다.

방 안의 DINO: 3D 세그멘테이션을 위한 2D 기반 모델 활용 | 최신 연구 논문 | HyperAI초신경