Command Palette
Search for a command to run...
تعلم تمثيلات الفيديو من اقتراحات التوافق
تعلم تمثيلات الفيديو من اقتراحات التوافق
Xingyu Liu; Joon-Young Lee; Hailin Jin
الملخص
المراسلات بين الإطارات تحمل معلومات غنية عن المحتوى الديناميكي في مقاطع الفيديو. ومع ذلك، فإن التقاط وتعلم هذه المراسلات بشكل فعال يشكل تحديًا بسبب بنية غير منتظمة وديناميكية معقدة. في هذا البحث، نقترح شبكة عصبية جديدة تتعلم تمثيلات الفيديو بجمع المعلومات من المراسلات المحتملة. تُسمى هذه الشبكة بـ CPNet، وهي قادرة على تعلم حقول ثنائية الأبعاد متغيرة مع التوافق الزمني. وبشكل خاص، يمكنها تعلم التمثيلات لمقاطع الفيديو بكفاءة من خلال مزج المظهر والحركة على مدى طويل باستخدام إدخال RGB فقط. نقدم العديد من التجارب التحليلية لتقييم نموذجنا. يظهر CPNet أداءً أقوى من الطرق الموجودة على مجموعة Kinetics ويحقق أفضل الأداء الحالي على مجموعتي Something-Something و Jester. نقدم تحليلًا للسلوك الذي يتبناه نموذجنا ونوضح صلابته أمام الأخطاء في الاقتراحات.