BEVFormer v2: تكييف هيكل صور حديث لتمييز الرؤية من فوق الطائرة عبر الإشراف البصري

نقدم كاشفًا جديدًا يعتمد على رؤية طيارة (BEV) مع مراقبة من منظور بصري، والذي يتميز بسرعة التقارب وملاءمته الأفضل للخلفيات الحديثة للصور. غالبًا ما تكون الكاشفات الحديثة الأفضل من نوعها في مجال BEV مرتبطة بخلفيات مُدرّبة مسبقًا على العمق، مثل VoVNet، مما يعيق التكامل بين الخلفيات الحديثة للصور والكاشفات المبنية على BEV. وللتغلب على هذه القيود، نعطي الأولوية لتيسير عملية التحسين للكاشفات المبنية على BEV من خلال إدخال مراقبة في الفضاء البصري. ولتحقيق ذلك، نقترح كاشفًا ثنائي المراحل، حيث تُقدَّم الاقتراحات الناتجة من الوحدة البصرية إلى وحدة الرؤية الطيارة لإجراء التنبؤات النهائية. ولتقييم فعالية نموذجنا، أجرينا دراسات تحليلية واسعة تركز على شكل المراقبة وعامة النموذج المقترح. وقد تم التحقق من الأداء الفعّال للطريقة المقترحة باستخدام طيف واسع من الخلفيات التقليدية والحديثة للصور، وحققت النتائج الجديدة أفضل نتائج مُحققة (SoTA) على مجموعة بيانات nuScenes الواسعة النطاق. وسيتم إصدار الشفرة المصدرية قريبًا.