نماذج الفضاء الحالة للكاميرات الحدثية

اليوم، تُحوّل الشبكات العصبية العميقة المتطورة التي تعالج بيانات الكاميرات الحدثية نافذة زمنية من الأحداث إلى تمثيلات مدخلات كثيفة على شكل شبكة شبكية. وبسبب هذا التصميم، تُظهر أداءً ضعيفًا في التعميم عند التشغيل بترددات استنتاج أعلى (أي بنافذة زمنية أصغر) مقارنة بالترددات التي تم تدريبها عليها. ونعالج هذه التحديات من خلال تقديم نماذج الفضاء الحالة (SSMs) التي تمتلك معلمات زمنية قابلة للتعلم لمعالجة الرؤية القائمة على الأحداث. يتيح هذا التصميم التكيّف مع ترددات متغيرة دون الحاجة إلى إعادة تدريب الشبكة عند ترددات مختلفة. علاوةً على ذلك، نستكشف استراتيجيتين لمواجهة آثار التشويش (التشويش الترددي) عند تشغيل النموذج بترددات أعلى. ونُقيّم نهجنا بشكل شامل مقابل الأساليب الحالية القائمة على هياكل RNN وTransformer عبر مجموعة متنوعة من المعايير، بما في ذلك مجموعات بيانات كاميرات الحدث Gen1 و1 ميجابكسل. تُظهر النتائج أن النماذج القائمة على SSM تُدرّب بسرعة تزيد بنسبة 33٪، كما تُظهر انخفاضًا محدودًا في الأداء عند اختبارها بترددات أعلى من تلك المستخدمة في التدريب. في المقابل، تُظهر النماذج التقليدية القائمة على RNN وTransformer انخفاضًا في الأداء يتجاوز 20 نقطة mAP، بينما يبلغ انخفاض أداء SSMs 3.76 نقطة mAP، مما يُبرز فعالية SSMs في مهام الرؤية القائمة على الأحداث.