الشبكات الخشنة-الدقيقة للكشف عن الأنشطة الزمنية في الفيديوهات

في هذه الورقة، نقدم شبكة كروز-فينا (Coarse-Fine Networks)، وهي معمارية ثنائية التدفق تستفيد من تمايزات مختلفة في الدقة الزمنية لتعلم تمثيلات فيديو أفضل للحركة على المدى الطويل. تُعالج النماذج التقليدية للفيديوهات المدخلات بحلقة زمنية ثابتة واحدة (أو قليلة) دون أي اختيار ديناميكي للإطارات. ومع ذلك، نجادل بأن معالجة عدة دقة زمنية للمدخلات، وبشكل ديناميكي من خلال تعلّم تقدير أهمية كل إطار، يمكن أن يُحسّن بشكل كبير تمثيلات الفيديو، خصوصًا في مجال تحديد الأنشطة الزمنية. لتحقيق هذا الهدف، نقترح (1) "تجميع الشبكة" (Grid Pool)، وهي طبقة تناقص زمني تُتعلم لاستخراج السمات الخشنة، و(2) "الدمج متعدد المراحل" (Multi-stage Fusion)، وهي آلية انتباه فضائي-زمني تُدمج السياق الدقيق مع السمات الخشنة. ونُظهر أن طريقة عملنا تتفوق على أحدث النماذج في كشف الحركات في مجموعات بيانات عامة مثل Charades، مع تقليل كبير في استهلاك الحوسبة والذاكرة. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/kkahatapitiya/Coarse-Fine-Networks