منذ 11 أيام

VLMo: التدريب المسبق الموحّد للرؤية واللغة مع مزيج من الخبراء حسب الوسائط

Hangbo Bao, Wenhui Wang, Li Dong, Qiang Liu, Owais Khan Mohammed, Kriti Aggarwal, Subhojit Som, Furu Wei

الملخص

نقدم نموذجًا مُدرَّبًا مسبقًا موحدًا للرؤية واللغة (VLMo) يتعلّم بشكل مشترك مُشفرَين مزدوجين ومشفرًا تجميعيًا باستخدام شبكة ترانسفورمر منظومة. وبشكل خاص، نقدّم ترانسفورمر مزيج الخبراء حسب الوسائط (MoME)، حيث يحتوي كل كتلة على مجموعة من الخبراء المخصصة للوسائط المختلفة، بالإضافة إلى طبقة انتباه ذاتي مشتركة. وبفضل المرونة في النمذجة التي يوفرها MoME، يمكن تدريب VLMo المسبقًا ثم تعديله دقيقًا كمشفر تجميعي للمهام التصنيفية للرؤية واللغة، أو استخدامه كمشفر مزدوج لاسترجاع الصور والنصوص بكفاءة. علاوةً على ذلك، نقترح استراتيجية تدريب متعددة المراحل، والتي تستفيد بشكل فعّال من بيانات كبيرة الحجم فقط بالصورة أو فقط بالنص، بالإضافة إلى أزواج الصورة والنص. تُظهر النتائج التجريبية أن VLMo يحقق نتائج متقدمة على مستوى الحد الأقصى في مهام متعددة للرؤية واللغة، بما في ذلك VQA وNLVR2 واسترجاع الصور والنصوص. يتوفر الكود والنماذج المدرّبة مسبقًا على الرابط: https://aka.ms/vlmo.