HyperAIHyperAI

Command Palette

Search for a command to run...

VideoMoCo: التعلم المتمايز لتمثيل الفيديو باستخدام أمثلة عدائية زمنية

Tian Pan Yibing Song Tianyu Yang Wenhao Jiang Wei Liu

الملخص

يُعدّ MoCo فعّالًا في تعلّم تمثيلات الصور بدون تدريب مُسبَق. في هذه الورقة، نُقدّم VideoMoCo لتعلّم تمثيلات الفيديو بدون تدريب مُسبَق. وباستخدام تسلسل فيديو كعينة إدخال، نُحسّن تمثيلات الميزة الزمنية في MoCo من منظورين. أولاً، نُدخل مُولِّدًا لحذف عدد من الإطارات من هذه العينة بشكل زمني. ثم نُدرّب المُميّز (discriminator) على تشفير تمثيلات ميزة مشابهة بغض النظر عن حذف الإطارات. وباستخدام حذف تلقائي لإطارات مختلفة خلال تكرارات التدريب في التعلّم المُضاد، نُعدّل هذه العينة الإدخالية لتدريب مشفر زمني قوي. ثانيًا، نُستخدم التدهور الزمني لتمثيل التراجع في الأهمية في قائمة الذاكرة عند حساب خسارة التباين. وبما أن المشفر التراكمي (momentum encoder) يُحدّث بعد إدخال المفاتيح إلى القائمة، فإن قدرة تمثيل هذه المفاتيح تنخفض عند استخدام العينة الإدخالية الحالية في التعلّم التبايني. ويُظهر هذا التدهور عبر التدهور الزمني، الذي يُركّز على المفاتيح الحديثة في القائمة بالنسبة للعينة الإدخالية. نتيجة لذلك، نُعدّل MoCo لتعلّم تمثيلات الفيديو دون تصميم مُسبَق لمهام مُسبقة (pretext tasks) تجريبيًا. وبتعزيز قدرة المشفر على التحمل الزمني ونمذجة التدهور الزمني للمفاتيح، يُحسّن VideoMoCo أداء MoCo زمنيًا بناءً على التعلّم التبايني. وتشير التجارب على مجموعات بيانات معيارية مثل UCF101 وHMDB51 إلى أن VideoMoCo يُعدّ أحدث طريقة فعّالة لتعلّم تمثيلات الفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp