HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج فيديو-لغة عام للمهام: التدريب المسبق لفهم الفيديو بدون ارتباط بمهام محددة

Hu Xu Gargi Ghosh Po-Yao Huang Prahal Arora Masoumeh Aminzadeh Christoph Feichtenhofer Florian Metze Luke Zettlemoyer

الملخص

نقدّم نهجًا مبسطًا لتدريب مسبق متعدد الوسائط غير مُخصص للمهام، يمكنه استقبال إدخال فيديو أو نصي، أو كليهما لعدد من المهام النهائية المختلفة. تُعدّ الطرق الحالية للتدريب المسبق مُخصصة للمهام، حيث تعتمد إما على مشغل عبر وسائط واحد يتطلب كلا الوسائط، مما يحد من استخدامها في المهام النهائية من نوع الاسترجاع، أو على تعلم متعدد المهام أكثر تعقيدًا باستخدام مشغلين منفصلين لكل وسيلة، مما يحد من التكامل المبكر بين الوسائط. بدلًا من ذلك، نقدّم أساليب جديدة لتمويه التدريب المسبق تُحسّن مزج الوسائط (مثلاً، من خلال إجبار التمويهات النصية على التنبؤ بأقرب تضمينات فيديو)، مع الحفاظ في الوقت نفسه على القدرة على الفصل بين الوسائط (مثلاً، عند الحاجة إلى تنبؤات منفصلة دون استخدام كل الإدخالات). أظهرت النتائج التجريبية أداءً قويًا على طيف أوسع من المهام مقارنة بأي طريقة سابقة، وتفوقت غالبًا على التدريب المسبق المخصص للمهام. تم إتاحة الكود على الرابط التالي: https://github.com/pytorch/fairseq/tree/main/examples/MMPT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نموذج فيديو-لغة عام للمهام: التدريب المسبق لفهم الفيديو بدون ارتباط بمهام محددة | مستندات | HyperAI