2달 전
OVIR-3D: 3D 데이터 학습 없이 개방형 어휘 3D 인스턴스 검색
Lu, Shiyang ; Chang, Haonan ; Jing, Eric Pu ; Boularias, Abdeslam ; Bekris, Kostas

초록
이 연구는 OVIR-3D를 제시합니다. OVIR-3D는 훈련 과정에서 3D 데이터를 사용하지 않으면서도 효과적인 오픈 보카브러리(open-vocabulary) 3D 객체 인스턴스 검색 방법입니다. 주어진 언어 쿼리를 기반으로, 제안된 방법은 인스턴스와 텍스트 쿼리의 특성 유사성을 바탕으로 순위가 매겨진 3D 객체 인스턴스 세그먼트 집합을 반환할 수 있습니다. 이는 텍스트와 일치하는 2D 영역 제안들을 다중 시점 융합(multi-view fusion)하여 3D 공간으로 변환함으로써 이루어집니다. 여기서 2D 영역 제안 네트워크는 3D 데이터셋보다 접근성이 높고 일반적으로 더 큰 2D 데이터셋을 활용할 수 있습니다. 제안된 융합 프로세스는 효율적이며, 대부분의 실내 3D 장면에 대해 실시간으로 수행될 수 있으며 추가적인 3D 공간 훈련이 필요하지 않습니다. 공개 데이터셋과 실제 로봇에서 수행한 실험들은 이 방법의 효과성과 로봇 내비게이션 및 조작 분야에서의 응용 가능성을 보여줍니다.