HyperAIHyperAI
منذ 17 أيام

VIMPAC: التدريب المسبق للفيديو من خلال التنبؤ بالرموز المخفية والتعلم التبايني

Hao Tan, Jie Lei, Thomas Wolf, Mohit Bansal
VIMPAC: التدريب المسبق للفيديو من خلال التنبؤ بالرموز المخفية والتعلم التبايني
الملخص

تعتمد فهم الفيديو على إدراك المحتوى الشامل ونمذجة الارتباطات الداخلية فيه (مثل العلاقة السببية، الحركة، والتوافق المكاني-الزمني). وللتعلم هذه التفاعلات، نطبّق مهمة تدريب مُسبق من نوع "إخفاء ثم تنبؤ" على رموز الفيديو المنفصلة التي تُولَّد باستخدام VQ-VAE. على عكس اللغة، حيث تكون الرموز النصية أكثر استقلالية، فإن الرموز المجاورة للفيديو غالبًا ما تكون مرتبطة بشكل قوي (مثلاً، الإطارات المتتالية للفيديو تبدو شبه متماثلة غالبًا)، وبالتالي فإن إخفاء الرموز الفردية بشكل موحد سيجعل المهمة بسيطة جدًا لدرجة لا تسمح بتعلم تمثيلات مفيدة. لمعالجة هذه المشكلة، نقترح استراتيجية إخفاء على شكل كتل، حيث نُخفي رموز الفيديو المجاورة في كل من المجال المكاني والزماني. كما نضيف أيضًا طريقة تعلم تبايني دون استخدام تكبير (augmentation-free contrastive learning) لالتقاط المحتوى الشامل بشكل أفضل من خلال التنبؤ فيما إذا كانت مقاطع الفيديو مستمدة من نفس الفيديو. قمنا بتدريب نموذجنا مسبقًا على مقاطع فيديو غير منقّحة، وأظهرنا أن النموذج المُدرّب مسبقًا يمكنه تحقيق نتائج متقدمة للغاية على عدة مجموعات بيانات لفهم الفيديو (مثل SSV2 وDiving48). وأخيرًا، نقدّم تحليلات مفصلة حول قابلية التوسع للنموذج وتصميم طريقة التدريب المسبق. تم إتاحة الكود على الرابط: https://github.com/airsplay/vimpac.

VIMPAC: التدريب المسبق للفيديو من خلال التنبؤ بالرموز المخفية والتعلم التبايني | أحدث الأوراق البحثية | HyperAI