HyperAIHyperAI
منذ 17 أيام

MuLTI: فهم فعّال للفيديو واللغة باستخدام عامل العينة متعددة الاتجاهات الموجه بالنص ونمذجة الاختيار المتعدد

Jiaqi Xu, Bo Liu, Yunkuo Chen, Mengli Cheng, Xing Shi
MuLTI: فهم فعّال للفيديو واللغة باستخدام عامل العينة متعددة الاتجاهات الموجه بالنص ونمذجة الاختيار المتعدد
الملخص

يُعد فهم الفيديو واللغة له تطبيقات متنوعة في المجال الصناعي، مثل الإجابة على الأسئلة المتعلقة بالفيديو، واسترجاع الفيديو باستخدام النص، والتصنيف متعدد العلامات. تُعتمد الطرق الحالية لفهم الفيديو واللغة عادةً على مشغلات متعددة الوسائط ثقيلة الوزن ووحدات دمج الميزات، مما يؤدي إلى استهلاك كبير للحسابات. وبشكل خاص، تواجه هذه الطرق صعوبة في التعامل مع الإطارات الكثيفة في الفيديو أو النصوص الطويلة التي تُعد شائعة في التطبيقات الصناعية. تُقدّم هذه الورقة نموذج MuLTI، وهو نموذج دقيق وفعال لفهم الفيديو واللغة، يتميز بدمج فعّال وكفؤ للميزات وتمكّنه من التكيّف السريع مع المهام التالية (downstream tasks). وبشكل خاص، قمنا بتصميم عينة متعددة الاتجاهات الموجهة بالنص (Text-Guided MultiWay-Sampler) بناءً على تقنية التمثيل المتبقي المُعدّل (adapt-pooling residual mapping) ووحدات الانتباه الذاتي (self-attention)، لاستخلاص التسلسلات الطويلة ودمج الميزات متعددة الوسائط، مما يقلل من التكاليف الحسابية ويحل مشكلة التدهور في الأداء الناتجة عن العينات السابقة. وبهذا، يمكن لنموذج MuLTI التعامل مع تسلسلات أطول بتكاليف حسابية محدودة. ثم، لتعزيز أداء النموذج بشكل أكبر وسد الفجوة الناتجة عن نقص مهام التدريب المسبق في مهام الإجابة على الأسئلة المتعلقة بالفيديو، قمنا بطرح مهمة تدريب مسبق جديدة تُسمى "نمذجة الاختيارات المتعددة" (Multiple Choice Modeling). تُسهم هذه المهمة في تقليل الفجوة بين التدريب المسبق والمهام التالية، وتحسّن قدرة النموذج على محاذاة ميزات الفيديو والنص. وبفضل وحدة دمج الميزات الفعّالة ومهمة التدريب المسبق الجديدة، يحقق MuLTI أداءً متفوقًا على مستوى الحالة الحالية (state-of-the-art) على عدة مجموعات بيانات. وسيتم الإفراج عن الكود البرمجي والنماذج المدربة مسبقًا.

MuLTI: فهم فعّال للفيديو واللغة باستخدام عامل العينة متعددة الاتجاهات الموجه بالنص ونمذجة الاختيار المتعدد | أحدث الأوراق البحثية | HyperAI