منذ 7 أيام
VideoCoCa: نمذجة الفيديو والنص باستخدام نقل صفرية من المُنشِّطات التمييزية
Shen Yan, Tao Zhu, Zirui Wang, Yuan Cao, Mi Zhang, Soham Ghosh, Yonghui Wu, Jiahui Yu

الملخص
نستعرض منهجية فعّالة لبناء نموذج أساسي يعتمد على الفيديو والنص. نقدّم نموذج VideoCoCa الذي يستخدم بشكل مثالي نموذجًا مُدرّبًا مسبقًا للصورة والنص (CoCa) ويعيد تكييفه لمهام الفيديو والنص بحد أدنى من التدريب الإضافي. في حين أن الدراسات السابقة أعادت تكييف نماذج الصورة والنص باستخدام وحدات تكامل متعددة بين الإطارات، نجد أن طبقتي التجميع الانتباهي التوليدية والانتباهي التقابلية في نموذج CoCa قابلتان للتكيف الفوري مع تمثيلات الإطارات المسطحة، مما يحقق نتائج من الدرجة الأولى في تصنيف الفيديو بدون تدريب (zero-shot) وفي استرجاع الفيديو من النص (text-to-video retrieval) بدون تدريب. علاوة على ذلك، نستكشف تدريبًا خفيفًا (lightweight finetuning) على نموذج VideoCoCa، ونحقق نتائج قوية في مهام الإجابة على الأسئلة المتعلقة بالفيديو ووصف الفيديو.