MambaPlace: 주의 메커니즘을 활용한 텍스트-포인트 클라우드 크로스 모달 장소 인식

비전 언어 위치 인식(Vision Language Place Recognition, VLVPR)은 이미지에서 자연어 설명을 통합하여 로봇의 위치 결정 성능을 향상시킵니다. 언어 정보를 활용함으로써 VLVPR는 시각에만 의존하는 제약을 극복하고 로봇의 장소 일치를 안내합니다. 다중 모달 융합의 핵심은 서로 다른 모달 간의 보완적 정보를 발굴하는 데 있습니다. 그러나 일반적인 융합 방법들은 전통적인 신경망 구조에 의존하며, 특히 복잡한 모달 내부 및 모달 간 상관관계가 있는 경우 크로스 모달 상호작용의 동역학을 포착하는 데 적절하지 않습니다.이에 본 논문에서는 새로운 거칠기부터 세밀하게, 그리고 단계적으로 연결된 크로스 모달 위치 인식 프레임워크인 MambaPlace를 제안합니다. 거칠기 위치 결정 단계에서는 텍스트 설명과 3D 포인트 클라우드가事前训练的T5和实例编码器分别进行编码(事前训练的 T5와 인스턴스 인코더로 각각 인코딩됩니다). 그런 다음 데이터 강화와 정렬을 위해 Text Attention Mamba (TAM)와 Point Clouds Mamba (PCM)를 사용하여 처리합니다. 그 후 세밀한 위치 결정 단계에서는 텍스트 설명과 3D 포인트 클라우드의 특성이 캐스케이드 크로스 어텐션 맘바(Cascaded Cross Attention Mamba, CCAM)를 통해 크로스 모달로 융합되고 더욱 강화됩니다. 마지막으로, 우리는 융합된 텍스트-포인트 클라우드 특성에서 위치 오프셋을 예측하여 가장 정확한 위치 결정을 달성합니다.대규모 실험 결과, MambaPlace는 KITTI360Pose 데이터셋에서 기존 최신 방법론보다 개선된 위치 결정 정확도를 보였습니다.