HyperAIHyperAI
il y a 2 mois

MambaPlace : Reconnaissance de lieux intermodale de texte vers nuage de points avec mécanismes d'attention Mamba

Shang, Tianyi ; Li, Zhenyu ; Xu, Pengjie ; Qiao, Jinwei
MambaPlace : Reconnaissance de lieux intermodale de texte vers nuage de points avec mécanismes d'attention Mamba
Résumé

La Reconnaissance de Lieux par Vision et Langage (VLVPR) améliore les performances de localisation des robots en intégrant des descriptions linguistiques naturelles issues d'images. En utilisant des informations linguistiques, le VLVPR guide l'appariement des lieux, surmontant ainsi la contrainte de dépendre uniquement de la vision. L'essence de la fusion multimodale réside dans l'exploitation des informations complémentaires entre différentes modalités. Cependant, les méthodes de fusion générales s'appuient sur des architectures neuronales traditionnelles et ne sont pas bien équipées pour capturer la dynamique des interactions transmodales, en particulier en présence de corrélations complexes intra-modales et inter-modales.Dans ce contexte, cet article propose un nouveau cadre de reconnaissance de lieux transmodaux, allant du grossier au fin et connecté bout à bout, appelé MambaPlace. Dans la phase initiale de localisation grossière, la description textuelle et le nuage de points 3D sont encodés respectivement par l'encodeur pré-entraîné T5 et l'encodeur d'instances. Ces données sont ensuite traitées à l'aide du Text Attention Mamba (TAM) et du Point Clouds Mamba (PCM) pour une amélioration et une alignement des données. Dans la phase ultérieure de localisation fine, les caractéristiques de la description textuelle et du nuage de points 3D sont fusionnées transmodalement et davantage renforcées grâce à une série d'étapes de Cross Attention Mamba (CCAM). Enfin, nous prédisons le décalage positionnel à partir des caractéristiques fusionnées du texte et du nuage de points, atteignant ainsi la localisation la plus précise possible.Des expériences approfondies montrent que MambaPlace obtient une meilleure précision de localisation sur le jeu de données KITTI360Pose comparativement aux méthodes les plus avancées actuellement disponibles.