HyperAIHyperAI
منذ 2 أشهر

روادفورمر+: تقديم تحليل المشهد RGB-X من خلال فك الارتباط بين المعلومات الحساسة للحجم ودمج الخصائص غير المتجانسة المتقدم

Jianxin Huang; Jiahang Li; Ning Jia; Yuxiang Sun; Chengju Liu; Qijun Chen; Rui Fan
روادفورمر+: تقديم تحليل المشهد RGB-X من خلال فك الارتباط بين المعلومات الحساسة للحجم ودمج الخصائص غير المتجانسة المتقدم
الملخص

حققت شبكات الاندماج المحددة للمهمة إنجازات كبيرة في تحليل المشاهد الحضرية. من بين هذه الشبكات، نجحت شبكتنا التي اقترحناها مؤخرًا RoadFormer في استخراج الخصائص غير المتجانسة من صور RGB وخرائط الاتجاه السطحي ودمج هذه الخصائص من خلال آليات الانتباه، مما أظهر فعالية ملزمة في تحليل مشهد الطريق RGB-Normal. ومع ذلك، تتدهور أدائها بشكل كبير عند التعامل مع أنواع أخرى أو مصادر للبيانات أو عند تنفيذ مهام تحليل المشاهد الأكثر عمومية والتي تغطي جميع الفئات. لتجاوز هذه القيود، يُقدم هذا البحث RoadFormer+، وهو نموذج فعال وقوي ومتكيف قادر على دمج بيانات RGB-X بفعالية، حيث يمثل "X" أنواعًا أو طرقًا إضافية للبيانات مثل العمق والحرارة والاتجاه السطحي والقطبية. بشكل خاص، نقترح كودر فك الترابط المميز الهجين جديد لاستخراج الخصائص غير المتجانسة وفصلها إلى مكونات عالمية محلية. يتم بعد ذلك دمج هذه الخصائص المنفصلة عبر كتلة دمج متعددة المقاييس للخصائص غير المتجانسة ذات الفروع المزدوجة، والتي تستعمل انتباهاً متوازيًا لـ Transformer وأقسام الشبكة العصبية المتكررة لدمج الخصائص متعددة المقاييس عبر مقاييس مختلفة ومجالات استقبال. يتم تغذية الخصائص المدمجة بعد ذلك إلى محودِّر لإنتاج التوقعات الدلالية النهائية. يُشار إلى أن النموذج RoadFormer+ المقترح لدينا يحتل المركز الأول في معيار KITTI Road ويحقق أفضل الأداء الحالي في تقاطع الوسط على الاتحاد (mean intersection over union) في مجموعات البيانات Cityscapes وMFNet وFMB وزجيو (ZJU). بالإضافة إلى ذلك، فإنه يقلل عدد المعالم القابلة للتعلم بنسبة 65٪ مقارنة بـ RoadFormer. سيتم توفير شفرتنا المصدر بشكل عام على الرابط mias.group/RoadFormerPlus.