دمج الكاميرات القائمة على الحوادث والكاميرات RGB للكشف القوي عن الكائنات في الظروف الصعبة

القدرة على كشف الأجسام تحت تلف الصور وظروف الطقس المختلفة تعد أمرًا بالغ الأهمية للنماذج القائمة على التعلم العميق، خاصة عند تطبيقها في التطبيقات الواقعية مثل القيادة الذاتية. فعندما تفشل الكاميرات القائمة على الألوان الثلاثة الأساسية (RGB) في هذه الظروف، يصبح من الضروري تصميم مجموعة من المستشعرات تُوفر تكرارًا لتفادي أخطاء الكشف الأساسي القائم على الإطارات. يمكن للكاميرات القائمة على الأحداث (event-based) أن تكمل كاميرات الإطارات في الظروف ذات الإضاءة المنخفضة وسياقات النطاق الديناميكي العالي التي قد تواجهها المركبة ذاتية القيادة أثناء التنقل. وعليه، نقترح نموذجًا متكاملًا مُكررًا للمستشعرات يجمع بين كاميرات الأحداث وكاميرات الإطارات، بحيث يكون مقاومًا للتشويهات الشائعة في الصور. يستخدم هذا النهج تمثيلًا على شكل شبكة مكعبات (voxel grid) للأحداث كمدخل، ويقترح شبكة است extractor مزدوجة الموازية لاستخراج الميزات من الإطارات والأحداث. ويُظهر نهجنا المتكامل للمستشعرات مرونة أكبر تفوق 30٪ مقارنة بالكشف القائم فقط على الإطارات، كما يتفوق على النموذج القائم فقط على الأحداث. وتم تدريب النموذج وتقييمه على مجموعة البيانات DSEC المنشورة بشكل عام.