Command Palette
Search for a command to run...
VideoCoCa: نمذجة الفيديو والنص باستخدام نقل صفرية من المُنشِّطات التمييزية
VideoCoCa: نمذجة الفيديو والنص باستخدام نقل صفرية من المُنشِّطات التمييزية
Shen Yan Tao Zhu Zirui Wang Yuan Cao Mi Zhang Soham Ghosh Yonghui Wu Jiahui Yu
الملخص
نستعرض منهجية فعّالة لبناء نموذج أساسي يعتمد على الفيديو والنص. نقدّم نموذج VideoCoCa الذي يستخدم بشكل مثالي نموذجًا مُدرّبًا مسبقًا للصورة والنص (CoCa) ويعيد تكييفه لمهام الفيديو والنص بحد أدنى من التدريب الإضافي. في حين أن الدراسات السابقة أعادت تكييف نماذج الصورة والنص باستخدام وحدات تكامل متعددة بين الإطارات، نجد أن طبقتي التجميع الانتباهي التوليدية والانتباهي التقابلية في نموذج CoCa قابلتان للتكيف الفوري مع تمثيلات الإطارات المسطحة، مما يحقق نتائج من الدرجة الأولى في تصنيف الفيديو بدون تدريب (zero-shot) وفي استرجاع الفيديو من النص (text-to-video retrieval) بدون تدريب. علاوة على ذلك، نستكشف تدريبًا خفيفًا (lightweight finetuning) على نموذج VideoCoCa، ونحقق نتائج قوية في مهام الإجابة على الأسئلة المتعلقة بالفيديو ووصف الفيديو.