شبكات FASTER المتكررة لتصنيف الفيديو بكفاءة

تقوم الطرق النموذجية لتصنيف الفيديو عادةً بتقسيم الفيديو إلى مقاطع قصيرة، ثم إجراء الاستدلال على كل مقطع بشكل مستقل، وأخيرًا جمع التنبؤات على مستوى المقطع لتوليد النتائج على مستوى الفيديو. ومع ذلك، فإن معالجة المقاطع البصرية المشابهة بشكل مستقل يتجاهل البنية الزمنية لمتسلسلة الفيديو ويزيد من التكلفة الحسابية عند وقت الاستدلال. في هذا البحث، نقترح إطارًا جديدًا باسم FASTER، أي تجميع الميزات للتكرار الزماني والمكاني (Feature Aggregation for Spatio-TEmporal Redundancy). يهدف FASTER إلى استغلال التكرار بين المقاطع المجاورة وتقليل التكلفة الحسابية من خلال تعلم كيفية تجميع التنبؤات من نماذج ذات تعقيدات مختلفة. يمكن لهذا الإطار دمج تمثيلات عالية الجودة من النماذج الباهظة الثمن لالتقاط المعلومات الحركية الدقيقة وتمثيلات خفيفة الوزن من النماذج الرخيصة لتغطية تغييرات المشهد في الفيديو. تم تصميم شبكة متكررة جديدة (أي FAST-GRU) لتجميع مزيج من هذه التمثيلات المختلفة. بالمقارنة مع الأساليب الموجودة، يمكن لـ FASTER تقليل العمليات العائمة (FLOPs) بأكثر من 10 أضعاف بينما يحافظ على الدقة الرائدة في مجالها عبر مجموعة بيانات شهيرة مثل Kinetics وUCF-101 وHMDB-51.