OpenDlign: Open-World 포인트 클라우드 이해를 위한 깊이 맞춤 이미지

최근 비전-언어 모델(Vision-Language Models, VLMs)을 사용하여 3D 포인트 클라우드와 이미지-텍스트 정보를 정렬하는 개방형 세계(open-world) 3D 표현 학습 방법들이 우수한 3D 제로샷(zero-shot) 성능을 보여주고 있습니다. 그러나 이 정렬을 위한 CAD 렌더링 이미지는 현실감과 질감 변동이 부족하여 정렬의 견고성을 저해합니다. 또한, 3D 및 2D 사전학습(pretraining) 데이터셋 사이의 양적 차이는 VLMs의 표현 능력을 3D 학습으로 효과적으로 전달하기 위한 전략의 필요성을 강조합니다. 본 논문에서는 확산 모델에서 생성된 깊이(depth) 정렬 이미지를 사용하여 견고한 다중모달(multimodal) 정렬을 실현하는 새로운 개방형 세계 3D 모델인 OpenDlign을 소개합니다. 이러한 이미지는 확산 모델의 확률적 특성 때문에 CAD 렌더링보다 더 다양한 질감을 나타냅니다. 깊이 맵 투영 파이프라인을 개선하고 깊이에 특화된 프롬프트를 설계함으로써 OpenDlign은 사전학습된 VLM의 풍부한 지식을 활용하여 최소한의 미세 조정(fine-tuning)으로 3D 표현 학습을 수행합니다. 실험 결과, OpenDlign은 제한된 ShapeNet 데이터셋에서 단지 6백만 개의 매개변수만 미세 조정했음에도 불구하고 다양한 3D 작업에서 높은 제로샷 및 소수 샷(few-shot) 성능을 달성했습니다. 제로샷 분류에서 OpenDlign은 ModelNet40에서 이전 모델들을 8.0% 초과하고 OmniObject3D에서는 16.4% 초과하였습니다. 또한, 깊이 정렬 이미지를 사용한 다중모달 정렬은 다른 최신(state-of-the-art) 모델들의 성능도 일관되게 향상시키는 것으로 나타났습니다.