BEVFusion: التكامل متعدد المهام متعدد الحساسات مع تمثيل موحد من منظور البصرة الطيارة

تُعدّ دمج الاستشعار متعدد المستشعرات ضروريًا لنظام قيادة ذاتية دقيقة وموثوقة. تعتمد الطرق الحديثة على دمج على مستوى النقاط: تعزيز سحابة النقاط من ليدار بإمكانات الكاميرا. ومع ذلك، فإن عملية تحويل الكاميرا إلى ليدار تتسبب في فقدان كثافة المعاني في ميزات الكاميرا، مما يعيق فعالية هذه الأساليب، خصوصًا في المهام التي تركز على المعاني (مثل تقسيم المشهد ثلاثي الأبعاد). في هذا البحث، نكسر هذا التقليد الجذري من خلال BEVFusion، وهو إطار عمل فعّال وعام لدمج المستشعرات متعددة المهام. حيث يوحد الميزات متعددة الوسائط في فضاء تمثيل مشترك يُعرف بمنظور الطيور (BEV)، مما يحفظ بسلاسة كل من المعلومات الهندسية والمعنوية. ولتحقيق ذلك، قمنا بتحليل وتحديد العوائق الرئيسية في الكفاءة المتعلقة بتحويل الرؤية، مع تحسين عملية التجميع في BEV، مما قلل من زمن التأخير بأكثر من 40 مرة. يمتاز BEVFusion بكونه محايدًا تمامًا تجاه المهمة، ويدعم بسلاسة مهام مختلفة للإدراك ثلاثي الأبعاد مع تغييرات معمارية شبه معدومة. وقد أرسى BEVFusion حالة جديدة من الأداء على مجموعة بيانات nuScenes، حيث حقق ارتفاعًا بنسبة 1.3% في mAP وNDS في كشف الأجسام ثلاثية الأبعاد، وارتفاعًا بنسبة 13.6% في mIoU في تقسيم خريطة BEV، مع تقليل تكلفة الحساب بنسبة 1.9 مرة. يمكن الوصول إلى الشفرة اللازمة لإعادة إنتاج النتائج عبر الرابط: https://github.com/mit-han-lab/bevfusion.