HyperAIHyperAI
منذ 11 أيام

BEVDistill: تَعْلِيمٌ مُتَعَامِلٌ بِمَوْضِعِ الرُّؤْيَةِ (BEV) مِنْ قِبَلِ نَمَذَجَةٍ مُتَعَامِلَةٍ لِكَشْفِ الأَجْسَامِ الثَّلاثِيَّةِ الأَبْعَادِ مِنْ رُؤَى عَدَدٍ مِنَ الْمُحَوِّلَاتِ

Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao
BEVDistill: تَعْلِيمٌ مُتَعَامِلٌ بِمَوْضِعِ الرُّؤْيَةِ (BEV) مِنْ قِبَلِ نَمَذَجَةٍ مُتَعَامِلَةٍ لِكَشْفِ الأَجْسَامِ الثَّلاثِيَّةِ الأَبْعَادِ مِنْ رُؤَى عَدَدٍ مِنَ الْمُحَوِّلَاتِ
الملخص

كشف الكائنات ثلاثية الأبعاد من عدة مناظر صورية هو مهمة أساسية وصعبة لفهم المشهد البصري. وبفضل تكلفته المنخفضة وفعاليته العالية، أظهر كشف الكائنات ثلاثية الأبعاد من مناظر متعددة آفاقًا واعدة للتطبيق. ومع ذلك، فإن الكشف الدقيق عن الكائنات من خلال المناظر الوهمية يُعد أمرًا بالغ الصعوبة نظرًا لغياب معلومات العمق. وغالبًا ما تلجأ الطرق الحالية إلى استخدام هيكل خلفي ثقيل (heavy backbones) لمشغلات الصور، مما يجعلها غير قابلة للتطبيق في البيئات الواقعية. على عكس الصور، تتفوق نقاط ليدار (LiDAR) في توفير مؤشرات مكانية، ما يؤدي إلى تحديد مواقع دقيق للغاية. في هذه الورقة، نستكشف دمج كاشفات تعتمد على ليدار في كشف الكائنات ثلاثية الأبعاد من مناظر متعددة. بدلًا من تدريب شبكة مباشرة لتنبؤ العمق، نوحد ميزات الصور ونقاط ليدار في فضاء الرؤية من الأعلى (Bird-Eye-View، BEV)، ونُحوِّل المعرفة بشكل تكيفي عبر تمثيلات غير متجانسة ضمن إطار معلم-تلميذ (teacher-student paradigm). ولتحقيق ذلك، نقترح \textbf{BEVDistill}، وهي إطار لنقل المعرفة عبر الوسائط (cross-modal BEV knowledge distillation، KD) للكشف عن الكائنات ثلاثية الأبعاد من مناظر متعددة. أظهرت التجارب الواسعة أن الطريقة المقترحة تتفوق على الطرق الحالية لنقل المعرفة (KD) على أساسية قوية للغاية، وهي BEVFormer، دون إضافة أي تكلفة إضافية أثناء مرحلة الاستنتاج. وبشكل ملحوظ، حقق أفضل نموذج لدينا 59.4 في مؤشر NDS على قائمة التصنيف النهائية لبيانات nuScenes، مما يُعد أفضل أداء حاليًا مقارنةً بجميع كاشفات الكائنات القائمة على الصور. سيتم إتاحة الشفرة المصدرية على: https://github.com/zehuichen123/BEVDistill.

BEVDistill: تَعْلِيمٌ مُتَعَامِلٌ بِمَوْضِعِ الرُّؤْيَةِ (BEV) مِنْ قِبَلِ نَمَذَجَةٍ مُتَعَامِلَةٍ لِكَشْفِ الأَجْسَامِ الثَّلاثِيَّةِ الأَبْعَادِ مِنْ رُؤَى عَدَدٍ مِنَ الْمُحَوِّلَاتِ | أحدث الأوراق البحثية | HyperAI