HyperAIHyperAI
منذ 2 أشهر

التنقيط المقنع للفيديو: إعادة التفكير في نمذجة الميزات المقنعة لتعلم تمثيل الفيديو ذاتي الإشراف

Rui Wang; Dongdong Chen; Zuxuan Wu; Yinpeng Chen; Xiyang Dai; Mengchen Liu; Lu Yuan; Yu-Gang Jiang
التنقيط المقنع للفيديو: إعادة التفكير في نمذجة الميزات المقنعة لتعلم تمثيل الفيديو ذاتي الإشراف
الملخص

استفادًا من نمذجة البصر المقنعة، حققت تعلم تمثيل الفيديو ذاتي الإشراف تقدمًا ملحوظًا. ومع ذلك، تركز الطرق الحالية على تعلم التمثيلات من الصفر من خلال إعادة بناء الخصائص الأولية مثل قيم RGB للبكسلات الخام. في هذا البحث، نقترح نمذجة الفيديو المقنعة (MVD)، وهو إطار عمل بسيط ولكنه فعال يتكون من مرحلتين لنمذجة الخصائج المقنعة لتعلم تمثيل الفيديو: أولاً، نقوم بتدريب النموذج الصوري (أو الفيديوي) عن طريق استعادة الخصائص الأولية للشظايا المقنعة، ثم نستخدم الخصائص الناتجة كأهداف لنمذجة الخصائج المقنعة. بالنسبة لاختيار نماذج المعلمين، لاحظنا أن الطلاب الذين يُعلَّمون بواسطة معلمين فيديو يحققون أداءً أفضل في مهمات الفيديو التي تعتمد بشكل كبير على الزمن، بينما ينقل المعلمون الصوريون تمثيلات مكانية أقوى لمهمات الفيديو التي تعتمد بشكل كبير على المساحة. كما تشير تحليلات التصور إلى أن معلمين مختلفين ينتجون أنماطًا مختلفة للمتعلمين. مستوحىً من هذه المشاهدة، صممنا طريقة تعليم مشترك مكانية-زمنية لمهمة MVD. تحديدًا، نستخلص نماذج الطلاب من كلٍ من معلمي الفيديو ومعلمي الصور بواسطة نمذجة الخصائج المقنعة. تظهر النتائج التجريبية الواسعة أن متغيرات الفيديو المستخرجة باستخدام التعليم المشترك المكاني-الزمني تتفوق على النماذج المستخرجة بواسطة معلم واحد في العديد من مجموعات بيانات الفيديو. حقق MVD الخاص بنا مع استخدام ViT العادي أداءً رائدًا بالمقارنة مع الطرق الإشرافية أو ذاتية الإشراف السابقة في عدة مهمات ثانوية صعبة للفيديو. على سبيل المثال، باستخدام نموذج ViT-Large، يحقق MVD الخاص بنا دقة Top-1 بنسبة 86.4٪ و76.7٪ على Kinetics-400 وSomething-Something-v2 على التوالي، مما يتفوق على VideoMAE بمقدار 1.2٪ و2.4٪ على التوالي. عند استخدام نموذج ViT-Huge أكبر حجمًا، يحقق MVD الأداء الرائد بدقة Top-1 بنسبة 77.3٪ على Something-Something-v2 ونسبة mAP 41.1٪ على AVA v2.2. سيتم توفير الكود في \url{https://github.com/ruiwang2021/mvd}.

التنقيط المقنع للفيديو: إعادة التفكير في نمذجة الميزات المقنعة لتعلم تمثيل الفيديو ذاتي الإشراف | أحدث الأوراق البحثية | HyperAI