BEVFormer: تعلم تمثيل الرؤية من الأعلى من صور متعددة الكاميرات عبر متحولات المكان والزمان

المهام المرتبطة بإدراك الرؤية ثلاثية الأبعاد، بما في ذلك الكشف ثلاثي الأبعاد وتقسيم الخرائط بناءً على صور متعددة الكاميرات، تعتبر أساسية لأنظمة القيادة الذاتية. في هذا البحث، نقدم إطارًا جديدًا يُطلق عليه اسم BEVFormer (Bird's Eye View Transformer)، والذي يتعلم تمثيلات موحدة من منظور الطائر (BEV) باستخدام متحولات spatiotemporal لدعم العديد من مهام إدراك القيادة الذاتية. بشكل موجز، يستغل BEVFormer المعلومات المكانية والزمانية من خلال التفاعل مع الفضاء المكاني والزماني عبر استعلامات BEV شبكية محددة مسبقًا. لجمع المعلومات المكانية، قمنا بتصميم انتباه المكان العابر بحيث تقوم كل استعلام BEV باستخراج الخصائص المكانية من المناطق ذات الاهتمام عبر وجهات نظر الكاميرات المختلفة. بالنسبة للمعلومات الزمانية، نقترح انتباه الذات الزماني لتجميع المعلومات التاريخية BEV بشكل متكرر. تحقق طريقتنا الحالة الجديدة الأكثر تقدمًا بنسبة 56.9٪ وفقًا لمقياس NDS على مجموعة اختبار nuScenes، وهي أعلى بمقدار 9.0 نقطة من أفضل النتائج السابقة وأداءها مشابه لأداء خطوط الأساس المستندة إلى LiDAR. كما نوضح أن BEVFormer يحسن بشكل كبير دقة تقدير السرعة واسترجاع الأجسام في ظروف الرؤية المنخفضة. يمكن الوصول إلى الشيفرة البرمجية عبر الرابط: \url{https://github.com/zhiqi-li/BEVFormer}.