HyperAIHyperAI

Command Palette

Search for a command to run...

مامبا بليس: التعرف على الأماكن عبر النمذجة متعددة الوسائط من النص إلى السحابة النقطية باستخدام آليات الانتباه مامبا

Shang Tianyi ; Li Zhenyu ; Xu Pengjie ; Qiao Jinwei

الملخص

التعرف على المكان باستخدام الرؤية واللغة (VLVPR) يعزز أداء تحديد موقع الروبوت من خلال دمج وصفات اللغة الطبيعية المستخرجة من الصور. عن طريق استخدام معلومات اللغة، يوجه VLVPR عملية تطابق المواقع للروبوت، مما يتجاوز قيود الاعتماد فقط على الرؤية. جوهر الاندماج متعدد الوسائط يتمثل في استخراج المعلومات التكميلية بين الوسائط المختلفة. ومع ذلك، تعتمد طرق الاندماج العامة على الهندسات العصبية التقليدية ولا تكون مجهزة بشكل جيد لالتقاط الديناميكيات التفاعلية بين الوسائط، خاصة في وجود علاقات معقدة داخل الوسيط وبين الوسائط. لذلك، تقترح هذه الورقة إطارًا جديدًا للتقدير المكاني متعدد الوسائط يتدرج من الخشن إلى الدقيق ويكون متصلًا من النهاية إلى النهاية، ويُطلق عليه اسم MambaPlace. في مرحلة التقدير الخشنة، يتم ترميز الوصف النصي والسحابة النقطية ثلاثية الأبعاد بواسطة مُرمِّزي T5 المُدرَّبين مسبقًا ومُرمِّز الحالة الفردية (instance encoder)، على التوالي. ثم يتم معالجتهما باستخدام نموذج انتباه النص Mamba (Text Attention Mamba - TAM) ونموذج السحابة النقطية Mamba (Point Clouds Mamba - PCM) لتحقيق تعزيز البيانات وتوفير التناسق. في المرحلة الدقيقة اللاحقة، يتم دمج خصائص الوصف النصي والسحابة النقطية ثلاثية الأبعاد عبر الوسائط وتعزيزها بشكل أكبر من خلال انتباه متصاعد متعدد الوسائط Mamba (Cross Attention Mamba - CCAM). وأخيرًا، نتنبأ بالانحراف الموضعي من خصائص السحابة النقطية والنص المتداخلة، مما يحقق تحديد الموقع بدقة عالية. تظهر التجارب الشاملة أن MambaPlace يحقق دقة أعلى في تحديد الموقع على مجموعة بيانات KITTI360Pose مقارنة بأحدث الأساليب المتاحة.ملاحظات:- "Vision Language Place Recognition" تم ترجمتها إلى "التعرف على المكان باستخدام الرؤية واللغة" (VLVPR).- "Multimodal fusion" تم ترجمتها إلى "الاندماج متعدد الوسائط".- "Instance encoder" تم ترجمتها إلى "مُرمِّز الحالة الفردية" مع إضافة التعريف الأجنبي بين قوسين.- "Text Attention Mamba" و "Point Clouds Mamba" و "Cross Attention Mamba" تم ترجمتها مع الإبقاء على الأسماء الأصلية بين قوسين.- "KITTI360Pose dataset" تم ترجمتها إلى "مجموعة بيانات KITTI360Pose".


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مامبا بليس: التعرف على الأماكن عبر النمذجة متعددة الوسائط من النص إلى السحابة النقطية باستخدام آليات الانتباه مامبا | مستندات | HyperAI