HyperAIHyperAI
منذ 2 أشهر

RSPNet: الإدراك النسبي للسرعة لتعلم تمثيل الفيديو بدون إشراف

Peihao Chen; Deng Huang; Dongliang He; Xiang Long; Runhao Zeng; Shilei Wen; Mingkui Tan; Chuang Gan
RSPNet: الإدراك النسبي للسرعة لتعلم تمثيل الفيديو بدون إشراف
الملخص

ندرس تعلم التمثيل غير المشرف للفيديو، الذي يهدف إلى تعلم خصائص الحركة والمظهر من الفيديو غير المصنف فقط، والتي يمكن إعادة استخدامها في مهام لاحقة مثل التعرف على الأفعال. ومع ذلك، فإن هذه المهمة تكون صعبة للغاية بسبب: 1) المعلومات الزمانية-المكانية المعقدة للغاية في الفيديوهات؛ و2) نقص البيانات المصنفة لتدريب النماذج. بخلاف تعلم التمثيل للصور الثابتة، من الصعب بناء مهمة ذاتية-إشرافية مناسبة لنمذجة خصائص الحركة والمظهر بشكل جيد. مؤخرًا، تم القيام بعدة محاولات لتعلم تمثيل الفيديو من خلال التنبؤ بسرعة تشغيل الفيديو. ومع ذلك، فإن الحصول على علامات سرعة دقيقة للفيديوهات ليس بالأمر السهل. وبشكل أكثر حرجًا، قد يميل النماذج المُتعلمة إلى التركيز على أنماط الحركة وبالتالي قد لا تتعلم خصائص المظهر بشكل جيد.في هذا البحث، نلاحظ أن سرعة التشغيل النسبية تكون أكثر اتساقًا مع أنماط الحركة، وبالتالي توفر إشرافًا أكثر فعالية واستقرارًا لتعلم التمثيل. لذلك، نقترح طريقة جديدة لإدراك سرعة التشغيل واستخدام السرعة النسبية بين مقاطع فيديو اثنين كعلامات. بهذه الطريقة، نتمكن من إدراك السرعة بشكل أفضل وتعلم خصائص الحركة بشكل أفضل. بالإضافة إلى ذلك، للتأكد من تعلم خصائص المظهر، نقترح أيضًا مهمة مركزها على المظهر حيث نُلزم النموذج بإدراك الاختلاف في المظهر بين مقاطع الفيديو اثنين.نوضح أن تحسين هاتين المهمتين معًا يحسن باستمرار الأداء في مهام لاحقة اثنتين وهما: التعرف على الأفعال واسترجاع الفيديو. وبشكل ملحوظ، بالنسبة للتعرف على الأفعال في مجموعة بيانات UCF101 (UCF101)، حققنا دقة بنسبة 93.7٪ دون استخدام البيانات المصنفة للتدريب الأولي (التدرب الأولي)، مما يتفوق على نموذج ImageNet الإشرافي للتدريب الأولي (التدرب الأولي). يمكن العثور على الكود والنماذج التي تم تدريبها مسبقًا عبر الرابط التالي: https://github.com/PeihaoChen/RSPNet.

RSPNet: الإدراك النسبي للسرعة لتعلم تمثيل الفيديو بدون إشراف | أحدث الأوراق البحثية | HyperAI