تعلم تمثيلات الفيديو من اقتراحات التوافق

المراسلات بين الإطارات تحمل معلومات غنية عن المحتوى الديناميكي في مقاطع الفيديو. ومع ذلك، فإن التقاط وتعلم هذه المراسلات بشكل فعال يشكل تحديًا بسبب بنية غير منتظمة وديناميكية معقدة. في هذا البحث، نقترح شبكة عصبية جديدة تتعلم تمثيلات الفيديو بجمع المعلومات من المراسلات المحتملة. تُسمى هذه الشبكة بـ $CPNet$، وهي قادرة على تعلم حقول ثنائية الأبعاد متغيرة مع التوافق الزمني. وبشكل خاص، يمكنها تعلم التمثيلات لمقاطع الفيديو بكفاءة من خلال مزج المظهر والحركة على مدى طويل باستخدام إدخال RGB فقط. نقدم العديد من التجارب التحليلية لتقييم نموذجنا. يظهر $CPNet$ أداءً أقوى من الطرق الموجودة على مجموعة Kinetics ويحقق أفضل الأداء الحالي على مجموعتي Something-Something و Jester. نقدم تحليلًا للسلوك الذي يتبناه نموذجنا ونوضح صلابته أمام الأخطاء في الاقتراحات.