2달 전

OpenIns3D: 3D 오픈-어휘 인스턴스 분할을 위한 스냅 및 룩업

Huang, Zhening ; Wu, Xiaoyang ; Chen, Xi ; Zhao, Hengshuang ; Zhu, Lei ; Lasenby, Joan
OpenIns3D: 3D 오픈-어휘 인스턴스 분할을 위한 스냅 및 룩업
초록

이 연구에서는 3D 입력만을 사용하는 새로운 3D 오픈 보카브러리 장면 이해 프레임워크인 OpenIns3D를 소개합니다. OpenIns3D 프레임워크는 "Mask-Snap-Lookup" 방식을 채택합니다. "Mask" 모듈은 3D 포인트 클라우드에서 클래스와 무관한 마스크 제안을 학습하며, "Snap" 모듈은 여러 스케일의 합성 장면 수준 이미지를 생성하고 2D 비전-언어 모델을 활용하여 흥미로운 객체를 추출합니다. "Lookup" 모듈은 "Snap"의 결과를 검색하여 제안된 마스크에 카테고리 이름을 할당합니다. 이 접근 방식은 간단하지만, 실내 및 실외 데이터셋에서 인식, 객체 탐지, 인스턴스 분할 등 다양한 3D 오픈 보카브러리 작업에서 최고 수준의 성능을 달성합니다. 또한, OpenIns3D는 다른 2D 감지기들 사이에서 재훈련 없이 쉽게 전환할 수 있도록 지원합니다. 강력한 2D 오픈 월드 모델과 통합될 때, OpenIns3D는 장면 이해 작업에서 뛰어난 결과를 얻습니다. 더 나아가, LLM(대형 언어 모델) 기반 2D 모델과 결합될 때, OpenIns3D는 복잡한 논리를 요구하고 실제 세계 지식을 필요로 하는 고도화된 텍스트 쿼리를 이해하고 처리하는 놀라운 능력을 보여줍니다. 프로젝트 페이지: https://zheninghuang.github.io/OpenIns3D/

OpenIns3D: 3D 오픈-어휘 인스턴스 분할을 위한 스냅 및 룩업 | 최신 연구 논문 | HyperAI초신경