شبكة التدفق التعاوني للتمثيل التمييزي للأفعال

نماذج التدفق المكاني والزماني حققت نجاحًا كبيرًا في مجال التعرف على الأنشطة في الفيديو. ومع ذلك، فإن معظم الأعمال الحالية تركز بشكل أكبر على تصميم طرق فعالة لدمج الخصائص، والتي تقوم بتدريب النموذج ثنائي التدفق بطريقة منفصلة. ولكن من الصعب ضمان تمييز الخصائص واستكشاف المعلومات المكملة بين التدفقات المختلفة في الأعمال الحالية.في هذا العمل، نقترح شبكة تعاونية جديدة عبر التدفقات (Cooperative Cross-Stream Network) تدرس المعلومات المشتركة في العديد من الوسائط المختلفة. يتم استخراج خصائص الشبكات ثنائية التدفق المكاني والزماني بطريقة تعلم شاملة من النهاية إلى النهاية. تستخرج هذه الشبكة المعلومات المكملة للوسائط المختلفة من كتلة الاتصال، والتي تهدف إلى استكشاف الارتباطات بين خصائص التدفقات المختلفة.بالإضافة إلى ذلك، يختلف نموذجنا عن الشبكات العصبية التقليدية (ConvNet) التي تتعلم الخصائص القابلة للتفريق بعمق باستخدام خسارة واحدة فقط هي خسارة التقاطع العكسي (cross-entropy loss). يعزز نموذجنا المقترح قدرة الخصائص المستخرجة بعمق على التمييز ويقلل من الاختلاف غير المرغوب فيه بين الوسائط من خلال تحسين مشترك لقيود تصنيف الوسائط وخسارة التقاطع العكسي لكل من الوسائط المتجانسة وغير المتجانسة. تتكون قيود تصنيف الوسائط من غرس تمييزي داخل الوسيط وقيد ثلاثي بين الوسائط، مما يقلل من الاختلافات داخل الوسيط وبين الوسائط.التجارب على ثلاثة مجموعات بيانات مرجعية أظهرت أن طريقة التعاون في استخراج الخواص البصرية والحركية يمكن أن تحقق أداءً رائدًا أو تنافسيًا مقارنة بالنتائج الموجودة حاليًا.