HyperAIHyperAI

Command Palette

Search for a command to run...

VIMPAC: التدريب المسبق للفيديو من خلال التنبؤ بالرموز المخفية والتعلم التبايني

Hao Tan Jie Lei Thomas Wolf Mohit Bansal

الملخص

تعتمد فهم الفيديو على إدراك المحتوى الشامل ونمذجة الارتباطات الداخلية فيه (مثل العلاقة السببية، الحركة، والتوافق المكاني-الزمني). وللتعلم هذه التفاعلات، نطبّق مهمة تدريب مُسبق من نوع "إخفاء ثم تنبؤ" على رموز الفيديو المنفصلة التي تُولَّد باستخدام VQ-VAE. على عكس اللغة، حيث تكون الرموز النصية أكثر استقلالية، فإن الرموز المجاورة للفيديو غالبًا ما تكون مرتبطة بشكل قوي (مثلاً، الإطارات المتتالية للفيديو تبدو شبه متماثلة غالبًا)، وبالتالي فإن إخفاء الرموز الفردية بشكل موحد سيجعل المهمة بسيطة جدًا لدرجة لا تسمح بتعلم تمثيلات مفيدة. لمعالجة هذه المشكلة، نقترح استراتيجية إخفاء على شكل كتل، حيث نُخفي رموز الفيديو المجاورة في كل من المجال المكاني والزماني. كما نضيف أيضًا طريقة تعلم تبايني دون استخدام تكبير (augmentation-free contrastive learning) لالتقاط المحتوى الشامل بشكل أفضل من خلال التنبؤ فيما إذا كانت مقاطع الفيديو مستمدة من نفس الفيديو. قمنا بتدريب نموذجنا مسبقًا على مقاطع فيديو غير منقّحة، وأظهرنا أن النموذج المُدرّب مسبقًا يمكنه تحقيق نتائج متقدمة للغاية على عدة مجموعات بيانات لفهم الفيديو (مثل SSV2 وDiving48). وأخيرًا، نقدّم تحليلات مفصلة حول قابلية التوسع للنموذج وتصميم طريقة التدريب المسبق. تم إتاحة الكود على الرابط: https://github.com/airsplay/vimpac.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp