المحولات البصرية المتكررة للكشف عن الكائنات باستخدام كاميرات الأحداث

نقدّم نماذج التحول البصري المتكررة (RVTs)، وهي هيكل أساسي جديد للكشف عن الكائنات باستخدام كاميرات الأحداث. توفر كاميرات الأحداث معلومات بصرية بتأخير أقل من ميلي ثانية، وبنطاق ديناميكي عالٍ، مع مقاومة قوية للضباب الحركي. تمتلك هذه الخصائص الفريدة إمكانيات كبيرة للكشف عن الكائنات وتعقبها بتأخير منخفض في السيناريوهات الحاسمة زمنيًا. سبق أن حققت الأبحاث السابقة في مجال الرؤية القائمة على الأحداث أداءً متميزًا في الكشف، لكن بسعر زمن استنتاج كبير، يتجاوز عادةً 40 ميلي ثانية. وباسترجاع التصميم الرئيسي للهيكل الأساسي المتكرر، تم تخفيض زمن الاستنتاج بمقدار 6 أضعاف مع الحفاظ على أداء مشابه. لتحقيق ذلك، استكشفنا تصميمًا متعدد المراحل يعتمد على ثلاث مفاهيم رئيسية في كل مرحلة: أولاً، سبق تبادلي (convolutional prior) يمكن اعتباره ترميزًا مكانيًا مشروطًا. ثانيًا، انتباه ذاتي موضعي ومتعدد التباعد (dilated global self-attention) لتفاعل الميزات المكانية. ثالثًا، تجميع الميزات الزمنية المتكررة لتقليل التأخير مع الحفاظ على المعلومات الزمنية. يمكن تدريب نماذج RVT من الصفر للوصول إلى أداء متميز في الكشف عن الكائنات القائمة على الأحداث، حيث تحقق دقة متوسطة مُرَكَّبة (mAP) بلغت 47.2٪ على مجموعة بيانات Gen1 للسيارات. وفي الوقت نفسه، تتميز نماذج RVT بسرعة استنتاج عالية (أقل من 12 ميلي ثانية على وحدة معالجة رسومات T4) وكفاءة ممتازة في عدد المعاملات (بمقدار خمسة أضعاف أقل من الأدوات السابقة). تقدم دراستنا رؤى جديدة حول خيارات التصميم الفعّالة التي يمكن أن تكون مفيدة للبحث في مجالات أبعد من الرؤية القائمة على الأحداث.