إلى الشبكات الفعالة من النوع الخشن إلى الدقيق للتعرف على الحركات والإشارات

تُعتمد الطرق الحديثة في التعرف على الحركات وال動作 في الفيديو على مفهومين رئيسيين: أولاً، تستخدم معالجة متعددة التدفقات؛ وثانياً، تعتمد على تجميع شبكات التحويل (convolutional networks). ونُحسّن ونُوسّع كلا الجانبين. أولاً، نُحقق مجالات استقبال محسّنة بشكل منهجي لاستخراج السمات المكملة من خلال تحليل تدريجي من المستوى الخشن إلى الدقيق للصور المدخلة على المستويين المكاني والزمني، ونُطبّق تركيزاً تلقائياً على مسارات السمات المهمة أثناء التدريب باستخدام طبقة اتصال كاملة معاد صياغتها. ثانيًا، نطوّر خطة تُسمى "استخدام عند الحاجة" مع استراتيجية "الخروج الأولي الخشن" (coarse-exit)، التي تتيح استخدام معالجة عالية الدقة ذات تكلفة باهظة بشكل انتقائي ويعتمد على البيانات، مع الحفاظ على الدقة وتقليل التكلفة الحسابية. تُبنى منهجية التعلم C2F شبكات تجميعية تتفوّق على معظم الطرق المنافسة من حيث تقليل التكلفة الحسابية وتحسين الدقة على مجموعات بيانات Something-Something V1 وV2 وJester، كما تظل منافسة على مجموعة بيانات Kinetics-400. وبشكل فريد، يمكن لشبكات التجميع C2F العمل تحت قيود متنوعة على الميزانية الحسابية.