HyperAIHyperAI
منذ 2 أشهر

تعلم تمثيل الفيديو من خلال الترميز التنبؤي الكثيف

Tengda Han; Weidi Xie; Andrew Zisserman
تعلم تمثيل الفيديو من خلال الترميز التنبؤي الكثيف
الملخص

هدف هذا البحث هو تعلم الترميز الذاتي للمكونات المكانية-الزمنية من الفيديو، والذي يكون مناسبًا للاعتراف بحركات الإنسان. نقدم ثلاثة إسهامات: أولاً، نقدم إطار الكودة التنبؤية الكثيفة (Dense Predictive Coding - DPC) لتعلم التمثيل الذاتي على الفيديوهات. هذا الإطار يتعلم ترميزًا كثيفًا للمكونات المكانية-الزمنية عن طريق التنبؤ المتكرر بالتمثيلات المستقبلية؛ ثانيًا، نقترح مخطط تدريبي تدريجي للتنبؤ بمراحل زمنية أبعد مع سياق زمني متناقص تدريجيًا. هذا يشجع النموذج على ترميز الإشارات المكانية-الزمنية التي تتغير ببطء فقط، مما يؤدي إلى تمثيلات ذات معنى؛ ثالثًا، نقيم هذه الطريقة من خلال تدريب نموذج DPC أولاً على مجموعة بيانات Kinetics-400 باستخدام التعلم الذاتي المشرف عليه ذاتيًا، ثم ضبط هذه التمثيلات في مهمة لاحقة، وهي الاعتراف بالحركات. باستخدام مسار واحد فقط (RGB فقط)، فإن تمثيلات DPC التي تم تدريبها بشكل ذاتي تحقق أفضل الأداء في مجال التعلم الذاتي على كل من مجموعتي بيانات UCF101 (75.7٪ دقة في المرتبة الأولى) و HMDB51 (35.7٪ دقة في المرتبة الأولى)، حيث تتفوق بشكل كبير على جميع طرق التعلم السابقة وتقترب من أداء النموذج الأساسي الذي تم تدريبه على ImageNet.