HyperAIHyperAI

Command Palette

Search for a command to run...

كلوفر: نحو نموذج موحد للتوافق والدمج بين الفيديو واللغة

Jingjia Huang Yinan Li Jiashi Feng Xinglong Wu Xiaoshuai Sun Rongrong Ji

الملخص

إن بناء نموذج فيديو-لغة عام قادر على حل مهام متعددة لفهم الفيديو (مثل استرجاع الفيديو بناءً على النص، والإجابة على الأسئلة حول الفيديو) يظل تحديًا مفتوحًا في مجال التعلم الآلي. من أجل تحقيق هذا الهدف، اعتمد معظم الأعمال الحديثة على بناء النموذج من خلال تجميع مشغلات سمات أحادية الاتجاه (uni-modal) ومشغلات سمات متقاطعة الاتجاه (cross-modal)، ثم تدريبه باستخدام مهام تدريب مسبقة قائمة على التباين الثنائي (pair-wise contrastive pre-text tasks). وعلى الرغم من العائدات الجذابة من حيث الشمولية، فإن النماذج الناتجة تضطر إلى التنازل بين الكفاءة والأداء. إذ تعتمد غالبًا على معمارية مختلفة لكل مهمة تطبيقية (downstream task) منفصلة. وجدنا أن السبب في ذلك يكمن في أن التدريب الثنائي لا يمكنه تحقيق تطابق (alignment) ودمج (fusion) فعّالين بين السمات المستمدة من مختلف الوسائط. ولهذا نقدّم \textbf{Clover}\textemdash وهي طريقة تدريب مسبق للفيديو-اللغة مبنية على الترابط\textemdash بهدف بناء نموذج فيديو-لغة عام قادر على معالجة مهام متعددة لفهم الفيديو دون التضحية بأي من الأداء أو الكفاءة. تعزز Clover تطابق السمات المتقاطعة والدمج بينها من خلال مهمة تدريب مسبق ثلاثية الوسائط (tri-modal alignment pre-training task) جديدة. علاوةً على ذلك، نقترح تعزيز التطابق الثلاثي من خلال دمج التعلم من عينات مُقنّعة معانيًا (semantic masked samples) ووضع خسارة ترتيب ثنائية جديدة. وقد حققت Clover أداءً جديدًا لحالة الفن (state-of-the-art) في عدة مهام تطبيقية، تشمل ثلاث مهام استرجاع في كلا الإعدادين الصفر-الانطلاق (zero-shot) والتدريب المخصص (fine-tuning)، وثمانية مهام للإجابة على الأسئلة حول الفيديو. سيتم إصدار الشيفرة المصدرية والنموذج المُدرّب مسبقًا على الرابط: \url{https://github.com/LeeYN-43/Clover}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp