17일 전

상대 위치 인식을 갖춘 인스턴스 프리 텍스트 기반 포인트 클라우드 로컬라이제이션

Lichao Wang, Zhihao Yuan, Jinke Ren, Shuguang Cui, Zhen Li
상대 위치 인식을 갖춘 인스턴스 프리 텍스트 기반 포인트 클라우드 로컬라이제이션
초록

텍스트-포인트 클라우드 크로스모달 로컬라이제이션은 미래의 로봇-인간 협업을 위한 핵심적인 비전-언어 임무로 부상하고 있다. 이 작업은 도시 규모의 포인트 클라우드 장면에서 자연어 지시문 몇 개를 바탕으로 특정 위치를 탐지하는 것을 목표로 한다. 본 논문에서는 기존 접근법의 두 가지 주요한 한계를 해결한다. 첫째, 정답 인스턴스(ground-truth instances)를 입력으로 사용하는 데 의존하는 점이며, 둘째, 잠재적 인스턴스들 간의 상대적 위치 관계를 간과하는 점이다. 제안하는 모델은 두 단계 파이프라인을 따르며, 첫 번째 단계는 텍스트-셀 검색을 위한 거친 단계이고, 두 번째 단계는 위치 추정을 위한 세밀한 단계이다. 두 단계 모두 인스턴스 쿼리 추출기(instance query extractor)를 도입한다. 여기서 셀은 3D 희소 컨볼루션 U-Net을 통해 인코딩되어 다중 해상도 포인트 클라우드 특징을 생성하고, 일련의 쿼리들이 이 특징들을 반복적으로 참조하여 인스턴스를 표현한다. 거친 단계에서는 인스턴스 쿼리 간의 공간적 관계를 포착하기 위해 행-열 상대 위치 인식(self-attention) 모듈(RowColRPA)을 설계하였다. 세밀한 단계에서는 텍스트와 포인트 클라우드 특징을 공간적 관계와 함께 융합하여 정밀한 위치 추정 성능을 향상시키기 위해 다모달 상대 위치 인식 크로스 어텐션(RPCA) 모듈을 개발하였다. KITTI360Pose 데이터셋에서의 실험 결과, 본 모델은 정답 인스턴스를 입력으로 사용하지 않음에도 불구하고 최신 기술 대비 경쟁력 있는 성능을 달성함을 입증하였다.