منذ 8 أشهر

الملخص

هدف هذا البحث هو تعلم الترميز الذاتي للمكونات المكانية-الزمنية من الفيديو، والذي يكون مناسبًا للاعتراف بحركات الإنسان. نقدم ثلاثة إسهامات: أولاً، نقدم إطار الكودة التنبؤية الكثيفة (Dense Predictive Coding - DPC) لتعلم التمثيل الذاتي على الفيديوهات. هذا الإطار يتعلم ترميزًا كثيفًا للمكونات المكانية-الزمنية عن طريق التنبؤ المتكرر بالتمثيلات المستقبلية؛ ثانيًا، نقترح مخطط تدريبي تدريجي للتنبؤ بمراحل زمنية أبعد مع سياق زمني متناقص تدريجيًا. هذا يشجع النموذج على ترميز الإشارات المكانية-الزمنية التي تتغير ببطء فقط، مما يؤدي إلى تمثيلات ذات معنى؛ ثالثًا، نقيم هذه الطريقة من خلال تدريب نموذج DPC أولاً على مجموعة بيانات Kinetics-400 باستخدام التعلم الذاتي المشرف عليه ذاتيًا، ثم ضبط هذه التمثيلات في مهمة لاحقة، وهي الاعتراف بالحركات. باستخدام مسار واحد فقط (RGB فقط)، فإن تمثيلات DPC التي تم تدريبها بشكل ذاتي تحقق أفضل الأداء في مجال التعلم الذاتي على كل من مجموعتي بيانات UCF101 (75.7٪ دقة في المرتبة الأولى) و HMDB51 (35.7٪ دقة في المرتبة الأولى)، حيث تتفوق بشكل كبير على جميع طرق التعلم السابقة وتقترب من أداء النموذج الأساسي الذي تم تدريبه على ImageNet.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار