상대 위치 인식을 갖춘 인스턴스 프리 텍스트 기반 포인트 클라우드 로컬라이제이션

텍스트-포인트 클라우드 크로스모달 로컬라이제이션은 미래의 로봇-인간 협업을 위한 핵심적인 비전-언어 임무로 부상하고 있다. 이 작업은 도시 규모의 포인트 클라우드 장면에서 자연어 지시문 몇 개를 바탕으로 특정 위치를 탐지하는 것을 목표로 한다. 본 논문에서는 기존 접근법의 두 가지 주요한 한계를 해결한다. 첫째, 정답 인스턴스(ground-truth instances)를 입력으로 사용하는 데 의존하는 점이며, 둘째, 잠재적 인스턴스들 간의 상대적 위치 관계를 간과하는 점이다. 제안하는 모델은 두 단계 파이프라인을 따르며, 첫 번째 단계는 텍스트-셀 검색을 위한 거친 단계이고, 두 번째 단계는 위치 추정을 위한 세밀한 단계이다. 두 단계 모두 인스턴스 쿼리 추출기(instance query extractor)를 도입한다. 여기서 셀은 3D 희소 컨볼루션 U-Net을 통해 인코딩되어 다중 해상도 포인트 클라우드 특징을 생성하고, 일련의 쿼리들이 이 특징들을 반복적으로 참조하여 인스턴스를 표현한다. 거친 단계에서는 인스턴스 쿼리 간의 공간적 관계를 포착하기 위해 행-열 상대 위치 인식(self-attention) 모듈(RowColRPA)을 설계하였다. 세밀한 단계에서는 텍스트와 포인트 클라우드 특징을 공간적 관계와 함께 융합하여 정밀한 위치 추정 성능을 향상시키기 위해 다모달 상대 위치 인식 크로스 어텐션(RPCA) 모듈을 개발하였다. KITTI360Pose 데이터셋에서의 실험 결과, 본 모델은 정답 인스턴스를 입력으로 사용하지 않음에도 불구하고 최신 기술 대비 경쟁력 있는 성능을 달성함을 입증하였다.