BAEFormer: التحولات الثنائية الاتجاه والتفاعل المبكر للتصنيف الدلالي من منظور العين الطيور

يُعدُّ تجزئة الاتساع المعنوي (BEV) من المهام الأساسية في القيادة الذاتية للمركبات. ومع ذلك، تواجه الطرق القائمة على التحويلات (Transformers) صعوبات في تحويل الرؤية المنظورية (PV) إلى رؤية من الأعلى (BEV) نظرًا لآليات تفاعلها الأحادية الاتجاه والتأخرية. لحل هذه المشكلة، نقترح إطارًا جديدًا يُسمى BAEFormer، وهو إطار مُحَوَّل ثنائي الاتجاه ومبكر التفاعل، يتكون من (أ) مسار مبكر التفاعل بين PV وBEV، و(ب) آلية تفاعل متقاطع ثنائية الاتجاه. بالإضافة إلى ذلك، لاحظنا أن دقة خرائط الميزات الصورية داخل وحدة التفاعل المتقاطع لها تأثير محدود على الأداء النهائي. استنادًا إلى هذه الملاحظة الحاسمة، نقترح توسيع حجم الصور المدخلة وخفض دقة ميزات الصور متعددة الزوايا لغرض التفاعل المتقاطع، مما يُحسّن الدقة بشكل أكبر مع الحفاظ على كمية الحساب ضمن حدود مقبولة. تحقق الطريقة المقترحة لتجزئة BEV المعنوي أداءً متميزًا في مستوى الحد الأقصى من الأداء في زمن استجابة فوري على مجموعة بيانات nuScenes، حيث بلغت دقة التجزئة 38.9 mIoU بسرعة 45 إطارًا في الثانية باستخدام وحدة معالجة واحدة من نوع A100.