17일 전
Text2Loc: 자연어로부터 3D 포인트 클라우드 위치 추정
Yan Xia, Letian Shi, Zifeng Ding, João F. Henriques, Daniel Cremers

초록
3D 포인트 클라우드의 위치 추정 문제를 자연어 설명 몇 가지를 기반으로 해결하고, 포인트와 텍스트 간의 의미적 관계를 완전히 해석할 수 있는 새로운 신경망인 Text2Loc를 제안한다. Text2Loc는 거친 위치 추정에서 세밀한 위치 추정으로 나아가는 계층적인 추정 파이프라인을 따르며, 먼저 텍스트-서브맵 기반의 전역 장소 인식을 수행한 후, 세밀한 위치 추정을 진행한다. 전역 장소 인식 단계에서는 최대 풀링을 적용한 계층적 트랜스포머(HTM, Hierarchical Transformer with Max-Pooling)를 통해 각 텍스트 힌트 간의 관계 동역학을 모델링하며, 텍스트-서브맵 대조 학습을 통해 긍정 쌍과 부정 쌍 사이의 균형을 유지한다. 또한, 복잡한 텍스트-인스턴스 매칭 과정을 완전히 제거하고, 더 가볍고 빠르며 정확도가 높은 새로운 매칭 불필요한 세밀한 위치 추정 방법을 제안한다. 광범위한 실험 결과에 따르면, Text2Loc는 KITTI360Pose 데이터셋에서 기존 최고 성능 기법 대비 위치 추정 정확도를 최대 2배까지 향상시켰다. 본 연구의 프로젝트 페이지는 공개되어 있으며, 다음 URL에서 확인할 수 있다: \url{https://yan-xia.github.io/projects/text2loc/}.