تمكين التوليد متعدد الوسائط على CLIP من خلال تبادل المعرفة بين الرؤية واللغة

أظهرت التدريب المسبق على نطاق واسع للرؤية واللغة (VLP) ذات الهياكل الثنائية (مثل CLIP)، باستخدام كميات هائلة من بيانات الأزواج بين الصور والنصوص، تفوقها في مهام التماثل متعددة الوسائط المختلفة. وعلى الرغم من نجاحها، فإن النماذج الناتجة لا تمتلك القدرة على المهام المتعددة الوسائط التوليدية بسبب ضعف مشفر النص. ولحل هذه المشكلة، نقترح تعزيز نموذج VLP الثنائي بنموذج لغوي مُدرَّب مسبقًا (PLM) من خلال تقنية نقل المعرفة بين الرؤية واللغة (VLKD)، مما يمكّن النموذج من التوليد متعدد الوسائط. وتميّز VLKD بكونها فعّالة من حيث البيانات والحساب مقارنةً بالتدريب المسبق من الصفر. أظهرت النتائج التجريبية أن النموذج الناتج يتمتع بأداء قوي في المهام التوليدية متعددة الوسائط بدون تدريب مسبق (zero-shot)، مثل الإجابة على الأسئلة البصرية المفتوحة وكتابة العناوين التوضيحية للصور. على سبيل المثال، حقق دقة تصل إلى 39.7% في مهمة VQA 2.0 بدون تدريب مسبق، متفوّقًا على النموذج السابق الأفضل في هذا المجال رغم استخدامه لعدد أقل بـ 14 مرة من المعاملات. علاوةً على ذلك، تم الحفاظ على القدرة الأصلية لمعالجة النصوص في نموذج PLM بعد تطبيق VLKD، مما يجعل نموذجنا مرنًا في أداء كل من المهام متعددة الوسائط والوحدية.