HyperAIHyperAI
منذ 4 أشهر

تشفير الحركة المقنعة للتعلم الذاتي لتمثيل الفيديو

Xinyu Sun; Peihao Chen; Liangwei Chen; Changhao Li; Thomas H. Li; Mingkui Tan; Chuang Gan
تشفير الحركة المقنعة للتعلم الذاتي لتمثيل الفيديو
الملخص

كيفية تعلم تمثيل الفيديو التمييزي من مقاطع الفيديو غير المصنفة هي تحدي صعب ولكنها ضرورية لتحليل الفيديو. المحاولات الأخيرة تسعى إلى تعلم نموذج تمثيل من خلال التنبؤ بمحتويات الشكل في المناطق المخفية. ومع ذلك، فإن إخفاء واستعادة محتويات الشكل قد لا يكون كافياً لنمذجة العناصر الزمنية، حيث يمكن إعادة بناء هذه المحتويات بسهولة من إطار واحد فقط. للحد من هذا القيد، نقدم ترميز الحركة المخفي (MME)، وهو نمط جديد للتدريب الأولي يعيد بناء كل من معلومات الشكل والحركة لاستكشاف العناصر الزمنية. في MME، نركز على معالجة تحديين حاسمين لتحسين أداء التمثيل: 1) كيفية تمثيل الحركة طويلة الأجل عبر عدة إطارات بشكل جيد؛ و2) كيفية الحصول على عناصر زمنية دقيقة من مقاطع الفيديو التي تم أخذ عينات منها بشكل متفرق. مستوحىً من حقيقة أن الإنسان قادر على التعرف على العمل عن طريق تتبع تغيرات مواقع الأشياء وتغيرات شكلها، نقترح إعادة بناء مسار حركي يمثل هذين النوعين من التغيير في المناطق المخفية. بالإضافة إلى ذلك، بالنظر إلى الإدخال النادر للفيديو، نفرض على النموذج إعادة بناء مسارات حركية كثيفة في البعدين المكاني والزماني. عند تدريبه باستخدام نمونا MME للتدريب الأولي، يكون النموذج قادراً على التوقع بتفاصيل الحركة طويلة الأجل والدقيقة. الرمز متاح على https://github.com/XinyuSun/MME.