تعلم الكشف عن الكائنات باستخدام كاميرا حدث بسعة 1 ميغابكسل

تحوّل كاميرات الحدث المعلومات البصرية بدقة زمنية عالية، ونسبة بيانات منخفضة، ونطاق ديناميكي واسع. وبفضل هذه الخصائص، تكون كاميرات الحدث مناسبة بشكل خاص للسياقات التي تتميز بحركة عالية، وظروف إضاءة صعبة، واحتياجات لتأخير منخفض. ومع ذلك، نظرًا لحداثة المجال، لا تزال أداء الأنظمة القائمة على الحدث في العديد من مهام الرؤية أقل مقارنةً بالحلول التقليدية القائمة على الإطارات. وتشمل الأسباب الرئيسية لهذا الفجوة في الأداء: أقل دقة فضائية لمستشعرات الحدث مقارنةً بكاميرات الإطارات؛ ونقص مجموعات بيانات تدريب كبيرة النطاق؛ وغياب معمارية تعلم عميق مُثبتة جيدًا لمعالجة بيانات الحدث. في هذه الورقة، نعالج جميع هذه المشكلات في سياق مهمة كشف الكائنات القائمة على الحدث. أولاً، نُطلق رسمياً أول مجموعة بيانات عالية الدقة وذات نطاق واسع للكشف عن الكائنات. تحتوي المجموعة على أكثر من 14 ساعة من التسجيلات بواسطة كاميرا حدث بقدرة 1 ميغابكسل، في سياقات متعلقة بالسيارات، إلى جانب 25 مليون مربع حدودي لسيارات ومشاة ومركبات ذات عجلتين، تم تسميتها بتردد عالٍ. ثانيًا، نُقدّم معمارية جديدة متكررة للكشف القائم على الحدث، بالإضافة إلى خسارة اتساق زمني لتحسين عملية التدريب. إن القدرة على تمثيل تسلسل الحدث بشكل مكثف داخل الذاكرة الداخلية للنموذج هي عنصر حاسم لتحقيق دقة عالية. يتفوق نموذجنا بشكل كبير على المعماريّات القائمة على الحدث ذات التدفق الأمامي. علاوةً على ذلك، لا يتطلب نهجنا أي إعادة بناء لصور مستوى الرمادي من الحدث، مما يُظهر إمكانية التدريب مباشرةً من الحدث الخام، وهو ما يكون أكثر كفاءة ودقة من المرور عبر صورة مستوى رمادي وسيطة. تُظهر التجارب على المجموعة التي تم تقديمها في هذه الورقة، والتي تتوفر فيها كل من بيانات الحدث والصور الرمادية، أداءً يوازي أداء كاشفات الإطار المُحسَّنة بشكل دقيق والمعروفة جيدًا.