HyperAIHyperAI
منذ 15 أيام

BEVDet4D: استغلال الإشارات الزمنية في الكشف عن الكائنات ثلاثية الأبعاد متعددة الكاميرات

Junjie Huang, Guan Huang
BEVDet4D: استغلال الإشارات الزمنية في الكشف عن الكائنات ثلاثية الأبعاد متعددة الكاميرات
الملخص

تحتوي البيانات الخاصة بإطار واحد على معلومات محدودة، مما يحد من أداء النماذج الحالية للكشف عن الأجسام ثلاثية الأبعاد المستندة إلى الرؤية باستخدام كاميرات متعددة. ولدفع حدود الأداء بشكل جوهري في هذا المجال، تم اقتراح نموذج جديد يُسمى BEVDet4D، يهدف إلى رفع نموذج BEVDet القابل للتوسع من الفضاء ثلاثي الأبعاد الفراغي إلى الفضاء الرباعي الأبعاد (الفراغي-الزمني). قمنا بتحديث إطار BEVDet البسيط من خلال عدد قليل من التعديلات، فقط لدمج الميزات المستخرجة من الإطار السابق مع الميزة المقابلة في الإطار الحالي. وبهذا، وبمجرد ميزانية حوسبة إضافية ضئيلة جدًا، نمكّن BEVDet4D من استغلال الإشارات الزمنية من خلال استعلام ومقارنة الميزتين المرشحتين. وبالإضافة إلى ذلك، قمنا بتبسيط مهمة توقع السرعة من خلال إزالة عوامل الحركة الذاتية (ego-motion) والزمن من الهدف التعلمي. ونتيجة لذلك، يقلل BEVDet4D، الذي يتمتع بأداء عام قوي، خطأ السرعة بنسبة تصل إلى 62.9٪. وهذا يجعل الطرق المستندة إلى الرؤية، لأول مرة، تصبح مقارنةً بالطرق التي تعتمد على ليدار أو رادار من حيث هذه الجوانب. وعلى معيار التحدي nuScenes، نعلن عن رقم قياسي جديد بنسبة 54.5٪ NDS باستخدام التكوين العالي الأداء المسمى BEVDet4D-Base، متفوقًا على أحدث طريقة سابقة (BEVDet-Base) بنسبة +7.3٪ NDS. ويتوفر الكود المصدري بشكل عام لصالح الأبحاث المستقبلية عبر الرابط: https://github.com/HuangJunJie2017/BEVDet.