HyperAIHyperAI
منذ 2 أشهر

مامبا بليس: التعرف على الأماكن عبر النمذجة متعددة الوسائط من النص إلى السحابة النقطية باستخدام آليات الانتباه مامبا

Shang, Tianyi ; Li, Zhenyu ; Xu, Pengjie ; Qiao, Jinwei
مامبا بليس: التعرف على الأماكن عبر النمذجة متعددة الوسائط من النص إلى السحابة النقطية باستخدام آليات الانتباه مامبا
الملخص

التعرف على المكان باستخدام الرؤية واللغة (VLVPR) يعزز أداء تحديد موقع الروبوت من خلال دمج وصفات اللغة الطبيعية المستخرجة من الصور. عن طريق استخدام معلومات اللغة، يوجه VLVPR عملية تطابق المواقع للروبوت، مما يتجاوز قيود الاعتماد فقط على الرؤية. جوهر الاندماج متعدد الوسائط يتمثل في استخراج المعلومات التكميلية بين الوسائط المختلفة. ومع ذلك، تعتمد طرق الاندماج العامة على الهندسات العصبية التقليدية ولا تكون مجهزة بشكل جيد لالتقاط الديناميكيات التفاعلية بين الوسائط، خاصة في وجود علاقات معقدة داخل الوسيط وبين الوسائط. لذلك، تقترح هذه الورقة إطارًا جديدًا للتقدير المكاني متعدد الوسائط يتدرج من الخشن إلى الدقيق ويكون متصلًا من النهاية إلى النهاية، ويُطلق عليه اسم MambaPlace. في مرحلة التقدير الخشنة، يتم ترميز الوصف النصي والسحابة النقطية ثلاثية الأبعاد بواسطة مُرمِّزي T5 المُدرَّبين مسبقًا ومُرمِّز الحالة الفردية (instance encoder)، على التوالي. ثم يتم معالجتهما باستخدام نموذج انتباه النص Mamba (Text Attention Mamba - TAM) ونموذج السحابة النقطية Mamba (Point Clouds Mamba - PCM) لتحقيق تعزيز البيانات وتوفير التناسق. في المرحلة الدقيقة اللاحقة، يتم دمج خصائص الوصف النصي والسحابة النقطية ثلاثية الأبعاد عبر الوسائط وتعزيزها بشكل أكبر من خلال انتباه متصاعد متعدد الوسائط Mamba (Cross Attention Mamba - CCAM). وأخيرًا، نتنبأ بالانحراف الموضعي من خصائص السحابة النقطية والنص المتداخلة، مما يحقق تحديد الموقع بدقة عالية. تظهر التجارب الشاملة أن MambaPlace يحقق دقة أعلى في تحديد الموقع على مجموعة بيانات KITTI360Pose مقارنة بأحدث الأساليب المتاحة.ملاحظات:- "Vision Language Place Recognition" تم ترجمتها إلى "التعرف على المكان باستخدام الرؤية واللغة" (VLVPR).- "Multimodal fusion" تم ترجمتها إلى "الاندماج متعدد الوسائط".- "Instance encoder" تم ترجمتها إلى "مُرمِّز الحالة الفردية" مع إضافة التعريف الأجنبي بين قوسين.- "Text Attention Mamba" و "Point Clouds Mamba" و "Cross Attention Mamba" تم ترجمتها مع الإبقاء على الأسماء الأصلية بين قوسين.- "KITTI360Pose dataset" تم ترجمتها إلى "مجموعة بيانات KITTI360Pose".