HyperAIHyperAI
منذ 11 أيام

نموذج X$^2$-VLM: نموذج مُدرَّب مسبقًا شامل لكل المهام البصرية-اللغوية

Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang, Wangchunshu Zhou
نموذج X$^2$-VLM: نموذج مُدرَّب مسبقًا شامل لكل المهام البصرية-اللغوية
الملخص

يهدف التدريب المسبق للرؤية واللغة إلى تعلُّم التوافق بين الرؤية واللغة من خلال كميات ضخمة من البيانات. تُركّز معظم الطرق الحالية على تعلُّم التوافق بين الصور والنصوص فقط، في حين تستخدم بعض الطرق الأخرى كاشفات كائنات مُدرَّبة مسبقًا للاستفادة من التوافق بين الرؤية واللغة على مستوى الكائنات. في هذا البحث، نقترح تعلُّم التوافق متعدد الحُسْنَات (multi-grained) بين الرؤية واللغة من خلال إطار تدريب مسبق موحّد يتعلّم التوافق متعدد الحُسْنَات والتحديد متعدد الحُسْنَات في آنٍ واحد. استنادًا إلى هذا الإطار، نقدّم نموذج X$^2$-VLM، وهو نموذج شامل يتميّز ببنية معيارية مرنة، حيث نُوحّد في هذا النموذج التدريب المسبق بين الصور والنصوص والفيديو والنصوص في نموذج واحد. يمتلك X$^2$-VLM القدرة على تعلُّم مفاهيم بصرية غير محدودة مرتبطة بوصف نصي متنوع. أظهرت نتائج التجارب أن X$^2$-VLM يحقق أفضل الأداء على المستويات الأساسية والكبيرة في مهام الصور والنصوص والفيديو والنصوص، مع تحقيق توازن جيد بين الأداء وحجم النموذج. علاوةً على ذلك، نُظهر أن التصميم المعياري لـ X$^2$-VLM يُمكّن من قابليته العالية للنقل، مما يجعله قابلاً للاستخدام في أي لغة أو مجال. على سبيل المثال، وباستبدال مشفر النص بـ XLM-R فقط، يتفوّق X$^2$-VLM على أحدث النماذج المُدرَّبة مسبقًا متعددة اللغات والمتعددة الوسائط، دون الحاجة إلى تدريب مسبق متعدد اللغات. يُتاح الكود والنماذج المُدرَّبة مسبقًا عبر الرابط التالي: https://github.com/zengyan-97/X2-VLM.

نموذج X$^2$-VLM: نموذج مُدرَّب مسبقًا شامل لكل المهام البصرية-اللغوية | أحدث الأوراق البحثية | HyperAI