منذ 6 أشهر

الملخص

يُعد فهم الفيديو واللغة له تطبيقات متنوعة في المجال الصناعي، مثل الإجابة على الأسئلة المتعلقة بالفيديو، واسترجاع الفيديو باستخدام النص، والتصنيف متعدد العلامات. تُعتمد الطرق الحالية لفهم الفيديو واللغة عادةً على مشغلات متعددة الوسائط ثقيلة الوزن ووحدات دمج الميزات، مما يؤدي إلى استهلاك كبير للحسابات. وبشكل خاص، تواجه هذه الطرق صعوبة في التعامل مع الإطارات الكثيفة في الفيديو أو النصوص الطويلة التي تُعد شائعة في التطبيقات الصناعية. تُقدّم هذه الورقة نموذج MuLTI، وهو نموذج دقيق وفعال لفهم الفيديو واللغة، يتميز بدمج فعّال وكفؤ للميزات وتمكّنه من التكيّف السريع مع المهام التالية (downstream tasks). وبشكل خاص، قمنا بتصميم عينة متعددة الاتجاهات الموجهة بالنص (Text-Guided MultiWay-Sampler) بناءً على تقنية التمثيل المتبقي المُعدّل (adapt-pooling residual mapping) ووحدات الانتباه الذاتي (self-attention)، لاستخلاص التسلسلات الطويلة ودمج الميزات متعددة الوسائط، مما يقلل من التكاليف الحسابية ويحل مشكلة التدهور في الأداء الناتجة عن العينات السابقة. وبهذا، يمكن لنموذج MuLTI التعامل مع تسلسلات أطول بتكاليف حسابية محدودة. ثم، لتعزيز أداء النموذج بشكل أكبر وسد الفجوة الناتجة عن نقص مهام التدريب المسبق في مهام الإجابة على الأسئلة المتعلقة بالفيديو، قمنا بطرح مهمة تدريب مسبق جديدة تُسمى "نمذجة الاختيارات المتعددة" (Multiple Choice Modeling). تُسهم هذه المهمة في تقليل الفجوة بين التدريب المسبق والمهام التالية، وتحسّن قدرة النموذج على محاذاة ميزات الفيديو والنص. وبفضل وحدة دمج الميزات الفعّالة ومهمة التدريب المسبق الجديدة، يحقق MuLTI أداءً متفوقًا على مستوى الحالة الحالية (state-of-the-art) على عدة مجموعات بيانات. وسيتم الإفراج عن الكود البرمجي والنماذج المدربة مسبقًا.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Jiaqi Xu Bo Liu Yunkuo Chen Mengli Cheng Xing Shi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jiaqi Xu Bo Liu Yunkuo Chen Mengli Cheng Xing Shi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jiaqi Xu Bo Liu Yunkuo Chen Mengli Cheng Xing Shi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MuLTI: فهم فعّال للفيديو واللغة باستخدام عامل العينة متعددة الاتجاهات الموجه بالنص ونمذجة الاختيار المتعدد

Jiaqi Xu Bo Liu Yunkuo Chen Mengli Cheng Xing Shi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MuLTI: فهم فعّال للفيديو واللغة باستخدام عامل العينة متعددة الاتجاهات الموجه بالنص ونمذجة الاختيار المتعدد

Jiaqi Xu Bo Liu Yunkuo Chen Mengli Cheng Xing Shi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MuLTI: فهم فعّال للفيديو واللغة باستخدام عامل العينة متعددة الاتجاهات الموجه بالنص ونمذجة الاختيار المتعدد

Jiaqi Xu Bo Liu Yunkuo Chen Mengli Cheng Xing Shi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters