منذ 4 أشهر

تمكين التوليد متعدد الوسائط على CLIP من خلال تبادل المعرفة بين الرؤية واللغة

{Anonymous}

الملخص

أظهرت التدريب المسبق على نطاق واسع للرؤية واللغة (VLP) ذات الهياكل الثنائية (مثل CLIP)، باستخدام كميات هائلة من بيانات الأزواج بين الصور والنصوص، تفوقها في مهام التماثل متعددة الوسائط المختلفة. وعلى الرغم من نجاحها، فإن النماذج الناتجة لا تمتلك القدرة على المهام المتعددة الوسائط التوليدية بسبب ضعف مشفر النص. ولحل هذه المشكلة، نقترح تعزيز نموذج VLP الثنائي بنموذج لغوي مُدرَّب مسبقًا (PLM) من خلال تقنية نقل المعرفة بين الرؤية واللغة (VLKD)، مما يمكّن النموذج من التوليد متعدد الوسائط. وتميّز VLKD بكونها فعّالة من حيث البيانات والحساب مقارنةً بالتدريب المسبق من الصفر. أظهرت النتائج التجريبية أن النموذج الناتج يتمتع بأداء قوي في المهام التوليدية متعددة الوسائط بدون تدريب مسبق (zero-shot)، مثل الإجابة على الأسئلة البصرية المفتوحة وكتابة العناوين التوضيحية للصور. على سبيل المثال، حقق دقة تصل إلى 39.7% في مهمة VQA 2.0 بدون تدريب مسبق، متفوّقًا على النموذج السابق الأفضل في هذا المجال رغم استخدامه لعدد أقل بـ 14 مرة من المعاملات. علاوةً على ذلك، تم الحفاظ على القدرة الأصلية لمعالجة النصوص في نموذج PLM بعد تطبيق VLKD، مما يجعل نموذجنا مرنًا في أداء كل من المهام متعددة الوسائط والوحدية.

المعايير القياسية

معيار قياسي	المنهجية	المقاييس
image-captioning-on-coco-captions	VLKD (ViT-B/16)	BLEU-4: 16.7 CIDER: 58.3 METEOR: 19.7 SPICE: 13.4
visual-question-answering-on-ok-vqa	VLKD(ViT-B/16)	Accuracy: 10.5
visual-question-answering-on-vqa-v2-test-dev	VLKD	Accuracy: 44.5
visual-question-answering-on-vqa-v2-val	VLKD(ViT-B/16)	Accuracy: 38.6

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp