تمكين التوليد متعدد الوسائط على CLIP من خلال تبادل المعرفة بين الرؤية واللغة
{Anonymous}

الملخص
أظهرت التدريب المسبق على نطاق واسع للرؤية واللغة (VLP) ذات الهياكل الثنائية (مثل CLIP)، باستخدام كميات هائلة من بيانات الأزواج بين الصور والنصوص، تفوقها في مهام التماثل متعددة الوسائط المختلفة. وعلى الرغم من نجاحها، فإن النماذج الناتجة لا تمتلك القدرة على المهام المتعددة الوسائط التوليدية بسبب ضعف مشفر النص. ولحل هذه المشكلة، نقترح تعزيز نموذج VLP الثنائي بنموذج لغوي مُدرَّب مسبقًا (PLM) من خلال تقنية نقل المعرفة بين الرؤية واللغة (VLKD)، مما يمكّن النموذج من التوليد متعدد الوسائط. وتميّز VLKD بكونها فعّالة من حيث البيانات والحساب مقارنةً بالتدريب المسبق من الصفر. أظهرت النتائج التجريبية أن النموذج الناتج يتمتع بأداء قوي في المهام التوليدية متعددة الوسائط بدون تدريب مسبق (zero-shot)، مثل الإجابة على الأسئلة البصرية المفتوحة وكتابة العناوين التوضيحية للصور. على سبيل المثال، حقق دقة تصل إلى 39.7% في مهمة VQA 2.0 بدون تدريب مسبق، متفوّقًا على النموذج السابق الأفضل في هذا المجال رغم استخدامه لعدد أقل بـ 14 مرة من المعاملات. علاوةً على ذلك، تم الحفاظ على القدرة الأصلية لمعالجة النصوص في نموذج PLM بعد تطبيق VLKD، مما يجعل نموذجنا مرنًا في أداء كل من المهام متعددة الوسائط والوحدية.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| image-captioning-on-coco-captions | VLKD (ViT-B/16) | BLEU-4: 16.7 CIDER: 58.3 METEOR: 19.7 SPICE: 13.4 |
| visual-question-answering-on-ok-vqa | VLKD(ViT-B/16) | Accuracy: 10.5 |
| visual-question-answering-on-vqa-v2-test-dev | VLKD | Accuracy: 44.5 |
| visual-question-answering-on-vqa-v2-val | VLKD(ViT-B/16) | Accuracy: 38.6 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.