الدمج بين أحداث RGB للكشف عن الأشياء المتحركة في القيادة الذاتية

اكتشاف الأجسام المتحركة (MOD) هو مهمة بصرية حاسمة لتحقيق القيادة الذاتية الآمنة بنجاح. رغم النتائج المقبولة لأساليب التعلم العميق، فإن معظم الأساليب الحالية تعتمد فقط على الإطارات الفردية وقد تفشل في تحقيق أداء معقول عند التعامل مع المشاركين المروريين الديناميين. تقدم التطورات الحديثة في تقنيات الاستشعار، وبشكل خاص الكاميرا الحدثية (Event camera)، مكملًا طبيعيًا للنهج التقليدي باستخدام الكاميرات لتحسين نمذجة الأجسام المتحركة. ومع ذلك، غالبًا ما تتبنى الأعمال القائمة على الأحداث نافذة زمنية محددة مسبقًا لتمثيل الأحداث، وتقوم بدمجها ببساطة لتقييم شدة الصور من الأحداث، مما يتجاهل الكثير من المعلومات الزمنية الغنية المتاحة من الأحداث غير المتزامنة. لذلك، ومن وجهة نظر جديدة، نقترح RENet، وهو شبكة دمج جديدة بين RGB والأحداث (RGB-Event fusion Network)، تستغل بشكل مشترك الوسيلتين المكملتين لتحقيق اكتشاف أجسام أكثر صلابة تحت السيناريوهات الصعبة للقيادة الذاتية. تحديدًا، قمنا أولًا بتصميم وحدة تجميع متعددة المقاييس الزمنية للاستفادة الكاملة من إطارات الأحداث خلال وقت التعرض لـ RGB والفواصل الزمنية الأكبر. ثم قمنا بتقديم وحدة دمج ثنائية الاتجاه لضبط ودمج الخصائص متعددة الوسائط بشكل انتقائي. لتقييم أداء شبكتنا، قمنا باختيار وتحديد مجموعة بيانات فرعية لمهمة اكتشاف الأجسام المتحركة من مجموعة البيانات الشائعة DSEC. تظهر التجارب الواسعة أن طريقة الدمج المقترحة لدينا تؤدي بشكل أفضل بكثير من بدائل الدمج بين RGB والأحداث الأكثر تقدمًا حاليًا. يمكن الوصول إلى الرمز المصدر ومجموعة البيانات علنًا عبر الرابط: https://github.com/ZZY-Zhou/RENet.