SVT-Net: محول فوقي خفيف الوزن للصيغة النادرة للمكعبات للاعتراف بالأماكن على نطاق واسع

التعرف على الأماكن على نطاق واسع باستخدام السحابة النقطية هو أمر أساسي للكثير من التطبيقات مثل التموضع والخرائط المتزامنة (SLAM). رغم اقتراح العديد من النماذج التي حققت أداءً جيدًا من خلال تعلم الخصائص المحلية قصيرة المدى، غالبًا ما يتم إهمال الخصائص السياقية طويلة المدى. بالإضافة إلى ذلك، أصبح حجم النموذج عقبة أمام تطبيقاته الواسعة. لتجاوز هذه التحديات، نقترح نموذج شبكة خفيفة الوزن للغاية يُطلق عليه اسم SVT-Net للتعرف على الأماكن على نطاق واسع. بصفة خاصة، فوق 3D Sparse Convolution (SP-Conv) الفعالة للغاية، تم اقتراح Sparse Voxel Transformer ذي الذرات (ASVT) وSparse Voxel Transformer ذي المجموعات (CSVT) لتعلم الخصائص المحلية قصيرة المدى والخصائص السياقية طويلة المدى في هذا النموذج. يتكون SVT-Net من ASVT و CSVT ويمكنه تحقيق أفضل النتائج في مجموعات البيانات القياسية من حيث الدقة والسرعة مع حجم نموذج خفيف الوزن للغاية (0.9 مليون معلمة). وفي الوقت نفسه، تم تقديم نسختين مبسطتين من SVT-Net، اللتين تحققان أيضًا أفضل النتائج وتقللان حجم النموذج إلى 0.8 مليون معلمة و0.4 مليون معلمة على التوالي.