HyperAIHyperAI

Command Palette

Search for a command to run...

MuLTI: فهم فعّال للفيديو واللغة باستخدام عامل العينة متعددة الاتجاهات الموجه بالنص ونمذجة الاختيار المتعدد

Jiaqi Xu Bo Liu Yunkuo Chen Mengli Cheng Xing Shi

الملخص

يُعد فهم الفيديو واللغة له تطبيقات متنوعة في المجال الصناعي، مثل الإجابة على الأسئلة المتعلقة بالفيديو، واسترجاع الفيديو باستخدام النص، والتصنيف متعدد العلامات. تُعتمد الطرق الحالية لفهم الفيديو واللغة عادةً على مشغلات متعددة الوسائط ثقيلة الوزن ووحدات دمج الميزات، مما يؤدي إلى استهلاك كبير للحسابات. وبشكل خاص، تواجه هذه الطرق صعوبة في التعامل مع الإطارات الكثيفة في الفيديو أو النصوص الطويلة التي تُعد شائعة في التطبيقات الصناعية. تُقدّم هذه الورقة نموذج MuLTI، وهو نموذج دقيق وفعال لفهم الفيديو واللغة، يتميز بدمج فعّال وكفؤ للميزات وتمكّنه من التكيّف السريع مع المهام التالية (downstream tasks). وبشكل خاص، قمنا بتصميم عينة متعددة الاتجاهات الموجهة بالنص (Text-Guided MultiWay-Sampler) بناءً على تقنية التمثيل المتبقي المُعدّل (adapt-pooling residual mapping) ووحدات الانتباه الذاتي (self-attention)، لاستخلاص التسلسلات الطويلة ودمج الميزات متعددة الوسائط، مما يقلل من التكاليف الحسابية ويحل مشكلة التدهور في الأداء الناتجة عن العينات السابقة. وبهذا، يمكن لنموذج MuLTI التعامل مع تسلسلات أطول بتكاليف حسابية محدودة. ثم، لتعزيز أداء النموذج بشكل أكبر وسد الفجوة الناتجة عن نقص مهام التدريب المسبق في مهام الإجابة على الأسئلة المتعلقة بالفيديو، قمنا بطرح مهمة تدريب مسبق جديدة تُسمى "نمذجة الاختيارات المتعددة" (Multiple Choice Modeling). تُسهم هذه المهمة في تقليل الفجوة بين التدريب المسبق والمهام التالية، وتحسّن قدرة النموذج على محاذاة ميزات الفيديو والنص. وبفضل وحدة دمج الميزات الفعّالة ومهمة التدريب المسبق الجديدة، يحقق MuLTI أداءً متفوقًا على مستوى الحالة الحالية (state-of-the-art) على عدة مجموعات بيانات. وسيتم الإفراج عن الكود البرمجي والنماذج المدربة مسبقًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp