17일 전
Text2Pos: 텍스트에서 포인트 클라우드로의 크로스모달 위치 지정
Manuel Kolmet, Qunjie Zhou, Aljosa Osep, Laura Leal-Taixe

초록
모바일 기기 및 가정용 가전제품과의 자연어 기반 통신은 점점 더 인기를 끌고 있으며, 미래에는 모바일 로봇과의 소통에도 자연스러운 방식으로 자리 잡을 가능성이 크다. 이러한 목표를 향해 우리는 예를 들어 차량 탑승 지점이나 물품 배달 위치와 같이 특정 장소를 지정할 수 있는 다중 모달 텍스트-포인트 클라우드 위치 지정 기술을 연구한다. 특히, 우리는 텍스트 설명과 환경 내 위치 정보를 거친(코어스)부터 세밀한(fine) 방식으로 정렬할 수 있도록 학습하는 Text2Pos라는 다중 모달 위치 지정 모듈을 제안한다. 환경의 포인트 클라우드를 입력으로 받았을 때, Text2Pos는 주변 환경을 자연어로 설명한 텍스트를 바탕으로 해당 위치를 탐지한다. Text2Pos를 훈련시키고 성능을 평가하기 위해, 최근에 소개된 KITTI360 데이터셋을 기반으로 한 이 작업을 위한 최초의 데이터셋인 KITTI360Pose를 구축하였다. 실험 결과, 상위 10개의 검색 결과 중에서 텍스트 쿼리의 위치와 15m 이내 거리에 65%의 쿼리를 정확히 위치 지정할 수 있음을 확인하였다. 이는 언어 기반 탐색 기술의 발전을 이끌어낼 수 있는 출발점이 될 것으로 기대된다.