LaRa: الكامنات والأشعة لتقسيم الدلالات البصرية من منظور الطائر في أنظمة الكاميرات المتعددة

الدراسات الحديثة في مجال القيادة الذاتية اعتمدت بشكل واسع على الخريطة الدلالية من منظور الطائر (BEV) كتمثيل متوسط للعالم. يتضمن التنبؤ الفوري لهذه الخرائط BEV عمليات غير بسيطة مثل استخراج البيانات من الكاميرات المتعددة بالإضافة إلى دمجها وإسقاطها على شبكة رؤية علوية مشتركة. يتم هذا عادةً باستخدام عمليات هندسية معرضة للأخطاء (مثل التجانس أو الإسقاط العكسي لتقدير العمق الأحادي) أو من خلال تعيين كثيف مباشر ومكلف بين البكسلات في الصورة والبكسلات في BEV (مثل استخدام الشبكات العصبية متعددة الطبقات MLP أو الانتباه). في هذه الدراسة، نقدم 'LaRa'، وهو نموذج فعال يعتمد على المُشفر والمُفكك (encoder-decoder) والمتحول (transformer) لفصل المعاني للمركبات من الكاميرات المتعددة. يستخدم نهجنا نظامًا من الانتباه المتبادل لتجميع المعلومات عبر المستشعرات المتعددة في مجموعة مدمجة ومعقدة من التمثيلات الكامنة. ثم يتم إعادة إسقاط هذه التمثيلات الكامنة، بعد معالجتها بواسطة سلسلة من كتل الانتباه الذاتي، باستخدام انتباه متبادل ثانٍ في الفضاء BEV. نثبت أن نموذجنا يتفوق على أفضل الأعمال السابقة التي استخدمت المتحولات (transformers) على nuScenes. الرمز البرمجي والنماذج المدربة متاحة على https://github.com/valeoai/LaRa