منذ 6 أشهر

الملخص

نستعرض منهجية فعّالة لبناء نموذج أساسي يعتمد على الفيديو والنص. نقدّم نموذج VideoCoCa الذي يستخدم بشكل مثالي نموذجًا مُدرّبًا مسبقًا للصورة والنص (CoCa) ويعيد تكييفه لمهام الفيديو والنص بحد أدنى من التدريب الإضافي. في حين أن الدراسات السابقة أعادت تكييف نماذج الصورة والنص باستخدام وحدات تكامل متعددة بين الإطارات، نجد أن طبقتي التجميع الانتباهي التوليدية والانتباهي التقابلية في نموذج CoCa قابلتان للتكيف الفوري مع تمثيلات الإطارات المسطحة، مما يحقق نتائج من الدرجة الأولى في تصنيف الفيديو بدون تدريب (zero-shot) وفي استرجاع الفيديو من النص (text-to-video retrieval) بدون تدريب. علاوة على ذلك، نستكشف تدريبًا خفيفًا (lightweight finetuning) على نموذج VideoCoCa، ونحقق نتائج قوية في مهام الإجابة على الأسئلة المتعلقة بالفيديو ووصف الفيديو.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار