MambaPlace: Text-to-Point-Cloud Cross-Modale Ortserkennung mit Aufmerksamkeitsmechanismen von Mamba

Vision-Language-Ortserkennung (VLVPR) verbessert die Lokalisierung von Robotern durch die Einbeziehung natürlichsprachlicher Beschreibungen aus Bildern. Durch die Nutzung sprachlicher Informationen leitet VLVPR den Ortsabgleich von Robotern und überwindet die Einschränkung, ausschließlich auf visuelle Daten angewiesen zu sein. Das Wesen der multimodalen Fusion besteht darin, die komplementären Informationen zwischen verschiedenen Modalitäten zu erschließen. Allerdings basieren allgemeine Fusionmethoden auf traditionellen neuronalen Architekturen und sind nicht gut geeignet, die Dynamik der intermodalen Interaktionen zu erfassen, insbesondere bei komplexen innerhalb- und zwischenmodalen Korrelationen. Zu diesem Zweck schlägt dieser Artikel ein neuartiges Framework für eine grob-zu-feine und von Anfang bis Ende verbundene intermodale Ortserkennung vor, das MambaPlace genannt wird. Im Grobanpassungsstadium werden die textbasierte Beschreibung und der 3D-Punktwolke durch den vortrainierten T5-Modell und den Instanzencoder jeweils kodiert. Diese werden dann mit Text Attention Mamba (TAM) und Point Clouds Mamba (PCM) für eine Datenverbesserung und -ausrichtung verarbeitet. Im nachfolgenden Feinanpassungsstadium werden die Merkmale der textbasierten Beschreibung und der 3D-Punktwolke intermodal fusioniert und durch geschachtelte Cross Attention Mamba (CCAM) weiter verbessert. Schließlich wird aus den fusionierten textlichen und punktwolkenbasierten Merkmalen der positionale Versatz vorhergesagt, um die präziseste Lokalisierung zu erreichen.Ausführliche Experimente zeigen, dass MambaPlace im Vergleich zu den bisher besten Methoden eine verbesserte Lokalisierungsgenauigkeit auf dem KITTI360Pose-Datensatz erzielt.