2달 전
OpenMask3D: 오픈-보카브러리 3D 인스턴스 세그멘테이션
Takmaz, Ayça ; Fedele, Elisabetta ; Sumner, Robert W. ; Pollefeys, Marc ; Tombari, Federico ; Engelmann, Francis

초록
우리는 오픈-보카블러리 3D 인스턴스 분할 작업을 소개합니다. 현재의 3D 인스턴스 분할 방법은 일반적으로 훈련 데이터셋에서 주석이 달린 사전 정의된 폐쇄 클래스 집합에서만 객체 카테고리를 인식할 수 있습니다. 이는 실제 응용 프로그램에서 새로운, 다양한 객체와 관련된 오픈-보카블러리 쿼리에 따라 작업을 수행해야 하는 경우 중요한 제한을 초래합니다. 최근에는 이러한 문제를 해결하기 위해 각 장면의 포인트에 대한 쿼리 가능한 특징을 학습하는 오픈-보카블러리 3D 장면 이해 방법들이 등장했습니다. 이러한 표현은 직접적으로 의미론적 분할을 수행할 수 있지만, 기존 방법들은 여러 객체 인스턴스를 구분하지 못합니다. 본 연구에서는 이러한 제한을 해결하고, 오픈-보카블러리 3D 인스턴스 분할을 위한 제로샷 접근 방법인 OpenMask3D를 제안합니다. 예측된 클래스 무관 3D 인스턴스 마스크의 안내 하에, 우리의 모델은 CLIP 기반 이미지 임베딩의 다중 뷰 융합을 통해 마스크별 특징을 집계합니다. ScanNet200과 Replica에서 수행된 실험 및 감소 연구 결과, OpenMask3D가 특히 긴 꼬리 분포에서 다른 오픈-보카블러리 방법들을 능가함을 보여주었습니다. 질적 실험은 또한 OpenMask3D가 기하학적 특성, 사용 가능성(affordances), 재료 등을 설명하는 자유형식 쿼리를 바탕으로 객체 속성을 분할하는 능력을 입증하였습니다.