HyperAIHyperAI

Command Palette

Search for a command to run...

VideoCoCa: نمذجة الفيديو والنص باستخدام نقل صفرية من المُنشِّطات التمييزية

Shen Yan Tao Zhu Zirui Wang Yuan Cao Mi Zhang Soham Ghosh Yonghui Wu Jiahui Yu

الملخص

نستعرض منهجية فعّالة لبناء نموذج أساسي يعتمد على الفيديو والنص. نقدّم نموذج VideoCoCa الذي يستخدم بشكل مثالي نموذجًا مُدرّبًا مسبقًا للصورة والنص (CoCa) ويعيد تكييفه لمهام الفيديو والنص بحد أدنى من التدريب الإضافي. في حين أن الدراسات السابقة أعادت تكييف نماذج الصورة والنص باستخدام وحدات تكامل متعددة بين الإطارات، نجد أن طبقتي التجميع الانتباهي التوليدية والانتباهي التقابلية في نموذج CoCa قابلتان للتكيف الفوري مع تمثيلات الإطارات المسطحة، مما يحقق نتائج من الدرجة الأولى في تصنيف الفيديو بدون تدريب (zero-shot) وفي استرجاع الفيديو من النص (text-to-video retrieval) بدون تدريب. علاوة على ذلك، نستكشف تدريبًا خفيفًا (lightweight finetuning) على نموذج VideoCoCa، ونحقق نتائج قوية في مهام الإجابة على الأسئلة المتعلقة بالفيديو ووصف الفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VideoCoCa: نمذجة الفيديو والنص باستخدام نقل صفرية من المُنشِّطات التمييزية | مستندات | HyperAI