Video-FocalNets: توليف تركيزي فراغي-زمني للتصنيف الفعلي للفيديوهات

تستخدم النماذج الحديثة لتمييز الفيديو نماذج الترانسفورمر لنموذج السياق الفراغي الزمني على مدى طويل. تعتمد تصاميم ترانسفورمر الفيديو على الانتباه الذاتي (self-attention)، التي تتيح نمذجة السياق العالمي ولكن بتكاليف حسابية عالية. في المقابل، تقدم التصاميم القائمة على التوسع (convolutional) بديلاً أكثر كفاءة، لكنها تفتقر إلى القدرة على نمذجة الاعتماديات طويلة المدى. ولتحقيق أفضل ما في كلا النهجين، تقدم هذه الدراسة نموذج Video-FocalNet، وهو معمارية فعّالة وكفؤة لتمييز الفيديو، تُنمذج كل من السياق المحلي والعالمي. يعتمد Video-FocalNet على بنية تفعيل مكاني زمني مركزي (spatio-temporal focal modulation)، التي تعيد ترتيب خطوات التفاعل والتجميع في الانتباه الذاتي لتحقيق كفاءة أفضل. علاوة على ذلك، يتم تنفيذ كلا الخطوتين — التجميع والتفاعل — باستخدام عمليات توسع كفؤة وضرب عناصرية (element-wise multiplication)، وهي أكثر كفاءة من حيث الحساب مقارنةً ببدائلها في الانتباه الذاتي بالنسبة لتمثيلات الفيديو. وقد قمنا باستكشاف واسع لمساحة التصميم الخاصة بنمذجة السياق المكاني الزمني القائمة على التفعيل المركزي، وبيّنّا أن تصميم التشفير المتوازٍ المكاني والزمني هو الخيار الأمثل. تُظهر نماذج Video-FocalNet أداءً متميزًا مقارنةً بالنماذج المُعتمدة على ترانسفورمر الحالية في مجال تمييز الفيديو، على خمسة مجموعات بيانات كبيرة (Kinetics-400، Kinetics-600، SS-v2، Diving-48، وActivityNet-1.3)، وبتكلفة حسابية أقل. تم إصدار الكود والنماذج الخاصة بنا على الرابط التالي: https://github.com/TalalWasim/Video-FocalNets.