SparseBEV: كشف كائنات ثلاثية الأبعاد عالي الأداء من مقاطع فيديو متعددة الكاميرات باستخدام ندرة

أصبح الكشف عن الأجسام ثلاثية الأبعاد المستند إلى الكاميرات في فضاء BEV (منظور الطيور) محط اهتمام كبير خلال السنوات الأخيرة. عادةً ما تتبع النماذج الكثيفة نموذجًا ثنائي المرحلة، حيث يتم أولًا بناء ميزة BEV كثيفة، ثم تنفيذ الكشف عن الأجسام في فضاء BEV، وهو ما يعاني من تحويلات منظور معقدة وتكاليف حسابية عالية. من ناحية أخرى، تتبع النماذج النادرة نموذجًا يستند إلى الاستفسارات دون بناء ميزة BEV الكثيفة صراحةً، لكنها تحقق أداءً أضعف مقارنةً بالأنماط الكثيفة. في هذه الورقة، نكتشف أن العامل الرئيسي لتقليل الفجوة في الأداء هو قدرة الكاشف على التكيف في كل من فضاء BEV وفضاء الصورة. لتحقيق هذا الهدف، نقترح SparseBEV، وهو كاشف ثلاثي الأبعاد بالكامل نادر، يتفوق في الأداء على النماذج الكثيفة. يحتوي SparseBEV على ثلاث تصميمات رئيسية، وهي: (1) الانتباه الذاتي القابل للتكيف حسب المقياس لجمع الميزات بحقل استقبال تكيفي في فضاء BEV، (2) أخذ العينات المكانية الزمنية القابلة للتكيف لإنشاء مواقع أخذ العينات تحت إشراف الاستفسارات، و(3) الخلط القابل للتكيف لفك تشفير الميزات المستخلصة باستخدام أوزان ديناميكية مستمدة من الاستفسارات. على مجموعة الاختبار من nuScenes، حقق SparseBEV أداءً متقدمًا في مجاله بـ 67.5 NDS. وعلى مجموعة التحقق، حقق 55.8 NDS مع الحفاظ على سرعة استنتاج في الوقت الفعلي تبلغ 23.5 إطارًا في الثانية. يمكن الوصول إلى الكود من خلال: https://github.com/MCG-NJU/SparseBEV.