HyperAIHyperAI

Command Palette

Search for a command to run...

MambaPlace: Text-to-Point-Cloud Cross-Modale Ortserkennung mit Aufmerksamkeitsmechanismen von Mamba

Shang Tianyi ; Li Zhenyu ; Xu Pengjie ; Qiao Jinwei

Zusammenfassung

Vision-Language-Ortserkennung (VLVPR) verbessert die Lokalisierung von Robotern durch die Einbeziehung natürlichsprachlicher Beschreibungen aus Bildern. Durch die Nutzung sprachlicher Informationen leitet VLVPR den Ortsabgleich von Robotern und überwindet die Einschränkung, ausschließlich auf visuelle Daten angewiesen zu sein. Das Wesen der multimodalen Fusion besteht darin, die komplementären Informationen zwischen verschiedenen Modalitäten zu erschließen. Allerdings basieren allgemeine Fusionmethoden auf traditionellen neuronalen Architekturen und sind nicht gut geeignet, die Dynamik der intermodalen Interaktionen zu erfassen, insbesondere bei komplexen innerhalb- und zwischenmodalen Korrelationen. Zu diesem Zweck schlägt dieser Artikel ein neuartiges Framework für eine grob-zu-feine und von Anfang bis Ende verbundene intermodale Ortserkennung vor, das MambaPlace genannt wird. Im Grobanpassungsstadium werden die textbasierte Beschreibung und der 3D-Punktwolke durch den vortrainierten T5-Modell und den Instanzencoder jeweils kodiert. Diese werden dann mit Text Attention Mamba (TAM) und Point Clouds Mamba (PCM) für eine Datenverbesserung und -ausrichtung verarbeitet. Im nachfolgenden Feinanpassungsstadium werden die Merkmale der textbasierten Beschreibung und der 3D-Punktwolke intermodal fusioniert und durch geschachtelte Cross Attention Mamba (CCAM) weiter verbessert. Schließlich wird aus den fusionierten textlichen und punktwolkenbasierten Merkmalen der positionale Versatz vorhergesagt, um die präziseste Lokalisierung zu erreichen.Ausführliche Experimente zeigen, dass MambaPlace im Vergleich zu den bisher besten Methoden eine verbesserte Lokalisierungsgenauigkeit auf dem KITTI360Pose-Datensatz erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp