نمذجة الحدث المُقنَّع: التدريب المسبق ذاتيّ التوجيه للكاميرات الحدثية

تُسجِّل كاميرات الحدث التغيرات في سطوع الصورة بشكل غير متزامن، بزمن استجابة منخفض، ودقة زمنية عالية، ونطاق ديناميكي واسع. ومع ذلك، فإن عملية تسمية بيانات الحدث تُعد عملية مكلفة وشاقة، مما يحد من استخدام الطرق العميقة للتعلم في المهام التصنيفية وأخرى ذات معنى باستخدام وسيلة الحدث. ولتقليل الاعتماد على بيانات الحدث المُسَمَّاة، نقدِّم نموذجًا ذاتي التدريب للحدث (Masked Event Modeling - MEM)، وهو إطار عمل ذاتي التدريب للبيانات الحدثية. تقوم طريقةنا بتدريب مُشَبَّك عصبي مسبقًا على بيانات حدث غير مُسَمَّاة، يمكن أن تنشأ من أي تسجيل كاميرا حدث. وبعد ذلك، يتم تحسين النموذج المُدرَّب مسبقًا على مهمة لاحقة، مما يؤدي إلى تحسين مستمر في دقة المهمة. على سبيل المثال، تحقق طريقتنا دقة تصنيف منافسة للحالة الراهنة في ثلاث مجموعات بيانات: N-ImageNet وN-Cars وN-Caltech101، مع زيادة ملحوظة في دقة التصنيف الأولى (top-1) مقارنة بالعمل السابق. وعند اختبارها على بيانات حدث حقيقية من العالم الخارجي، تتفوَّق MEM حتى على التدريب المسبق المُوجَّه باستخدام صور RGB. كما تُظهر النماذج التي تم تدريبها مسبقًا باستخدام MEM كفاءة عالية في الاستخدام المحدود للعلامات، وتُظهر قدرة قوية على التعميم في المهام الكثيفة مثل التصنيف الدلالي للصورة.