المزيد هو أقل: تعلّم تمثيلات فيديو فعّالة من خلال الشبكة الكبيرة-الصغيرة والتجانس الزمني بالاتجاهات العميقة

النماذج الحالية المتطورة في مجال التعرف على الإجراءات في الفيديو تعتمد في معظمها على شبكات الت(ConvNets) ثلاثية الأبعاد ذات التكلفة العالية. هذا يؤدي إلى الحاجة إلى مجموعات كبيرة من وحدات معالجة الرسوميات (GPU) لتدريب وتقدير هذه الهياكل. ولحل هذه المشكلة، نقدم بنية خفيفة الوزن وصديقة للذاكرة للتعريف بالإجراءات، تحقق أداءً مماثلاً أو أفضل من الهياكل الحالية باستخدام جزء ضئيل من الموارد. تعتمد البنية المقترحة على دمج فرع عميق يعمل على الإطارات ذات الدقة المنخفضة مع فرع مكثف يعمل على الإطارات ذات الدقة العالية، مما يسمح بتحقيق كفاءة عالية ودقة متميزة في آنٍ واحد. نُظهر أن نهجنا يحقق تخفيضًا بنسبة $3\sim4$ أضعاف في عدد العمليات الحسابية (FLOPs) وبنسبة $\sim2$ أضعاف في استخدام الذاكرة مقارنة بالنموذج الأساسي. وهذا يمكّن من تدريب نماذج أعمق باستخدام عدد أكبر من الإطارات المدخلة ضمن نفس الميزانية الحسابية. ولتقليل الحاجة إلى التحويلات الثلاثية الأبعاد الكبيرة، نقترح وحدة تجميع زمنية (Temporal Aggregation Module) لتمثيل الاعتماديات الزمنية في الفيديو بتكلفة حسابية إضافية ضئيلة جدًا. تحقق نماذجنا أداءً قويًا على عدة معايير للتعرف على الإجراءات، بما في ذلك Kinetics وSomething-Something وMoments-in-time. يمكن الاطلاع على الشفرة والنماذج عبر الرابط: https://github.com/IBM/bLVNet-TAM.