HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تمثيل الفيديو من خلال الترميز التنبؤي الكثيف

Tengda Han Weidi Xie Andrew Zisserman

الملخص

هدف هذا البحث هو تعلم الترميز الذاتي للمكونات المكانية-الزمنية من الفيديو، والذي يكون مناسبًا للاعتراف بحركات الإنسان. نقدم ثلاثة إسهامات: أولاً، نقدم إطار الكودة التنبؤية الكثيفة (Dense Predictive Coding - DPC) لتعلم التمثيل الذاتي على الفيديوهات. هذا الإطار يتعلم ترميزًا كثيفًا للمكونات المكانية-الزمنية عن طريق التنبؤ المتكرر بالتمثيلات المستقبلية؛ ثانيًا، نقترح مخطط تدريبي تدريجي للتنبؤ بمراحل زمنية أبعد مع سياق زمني متناقص تدريجيًا. هذا يشجع النموذج على ترميز الإشارات المكانية-الزمنية التي تتغير ببطء فقط، مما يؤدي إلى تمثيلات ذات معنى؛ ثالثًا، نقيم هذه الطريقة من خلال تدريب نموذج DPC أولاً على مجموعة بيانات Kinetics-400 باستخدام التعلم الذاتي المشرف عليه ذاتيًا، ثم ضبط هذه التمثيلات في مهمة لاحقة، وهي الاعتراف بالحركات. باستخدام مسار واحد فقط (RGB فقط)، فإن تمثيلات DPC التي تم تدريبها بشكل ذاتي تحقق أفضل الأداء في مجال التعلم الذاتي على كل من مجموعتي بيانات UCF101 (75.7٪ دقة في المرتبة الأولى) و HMDB51 (35.7٪ دقة في المرتبة الأولى)، حيث تتفوق بشكل كبير على جميع طرق التعلم السابقة وتقترب من أداء النموذج الأساسي الذي تم تدريبه على ImageNet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تعلم تمثيل الفيديو من خلال الترميز التنبؤي الكثيف | مستندات | HyperAI