VideoMoCo: التعلم المتمايز لتمثيل الفيديو باستخدام أمثلة عدائية زمنية

يُعدّ MoCo فعّالًا في تعلّم تمثيلات الصور بدون تدريب مُسبَق. في هذه الورقة، نُقدّم VideoMoCo لتعلّم تمثيلات الفيديو بدون تدريب مُسبَق. وباستخدام تسلسل فيديو كعينة إدخال، نُحسّن تمثيلات الميزة الزمنية في MoCo من منظورين. أولاً، نُدخل مُولِّدًا لحذف عدد من الإطارات من هذه العينة بشكل زمني. ثم نُدرّب المُميّز (discriminator) على تشفير تمثيلات ميزة مشابهة بغض النظر عن حذف الإطارات. وباستخدام حذف تلقائي لإطارات مختلفة خلال تكرارات التدريب في التعلّم المُضاد، نُعدّل هذه العينة الإدخالية لتدريب مشفر زمني قوي. ثانيًا، نُستخدم التدهور الزمني لتمثيل التراجع في الأهمية في قائمة الذاكرة عند حساب خسارة التباين. وبما أن المشفر التراكمي (momentum encoder) يُحدّث بعد إدخال المفاتيح إلى القائمة، فإن قدرة تمثيل هذه المفاتيح تنخفض عند استخدام العينة الإدخالية الحالية في التعلّم التبايني. ويُظهر هذا التدهور عبر التدهور الزمني، الذي يُركّز على المفاتيح الحديثة في القائمة بالنسبة للعينة الإدخالية. نتيجة لذلك، نُعدّل MoCo لتعلّم تمثيلات الفيديو دون تصميم مُسبَق لمهام مُسبقة (pretext tasks) تجريبيًا. وبتعزيز قدرة المشفر على التحمل الزمني ونمذجة التدهور الزمني للمفاتيح، يُحسّن VideoMoCo أداء MoCo زمنيًا بناءً على التعلّم التبايني. وتشير التجارب على مجموعات بيانات معيارية مثل UCF101 وHMDB51 إلى أن VideoMoCo يُعدّ أحدث طريقة فعّالة لتعلّم تمثيلات الفيديو.