إعادة بناء الفيديو القائم على الحدث باستخدام محول Transformer

تُعد كاميرات الحدث، التي تُخرِج الأحداث من خلال اكتشاف التغيرات المكانية-الزمنية في السطوع، نموذجًا جديدًا لمستشعرات الصور ذات النطاق الديناميكي العالي والتأخير المنخفض. وقد حققت الدراسات السابقة أداءً مُبهرًا في إعادة بناء الفيديو القائم على الأحداث من خلال إدخال الشبكات العصبية التلافيفية (CNN). ومع ذلك، فإن الطبيعة المكانية الداخلية للعمليات التلافيفية لا تُتيح نمذجة الاعتماد الطويل المدى، وهو أمر بالغ الأهمية لعدة مهام رؤية حاسوبية. في هذه الورقة، نقدّم شبكة هجينة تجمع بين CNN وTransformer لاستعادة الفيديو القائم على الأحداث (ET-Net)، بحيث تستفيد من المعلومات المحلية الدقيقة التي توفرها CNN والسياقات العالمية التي توفرها Transformer. علاوةً على ذلك، نقترح استراتيجية جديدة تُسمى "تجميع الهرم الرمزي" (Token Pyramid Aggregation) لتنفيذ دمج الرموز متعددة المقياس، بهدف ربط المفاهيم الدلالية الداخلية والمتداخلة داخل فضاء الرموز. تُظهر النتائج التجريبية أن الطريقة المقترحة تتفوّق على أحدث الطرق المُنشورة على عدة مجموعات بيانات حقيقية للكاميرات القائمة على الأحداث. يمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/WarranWeng/ET-Net