HyperAIHyperAI
منذ 11 أيام

التدريب العدواني على نطاق واسع لتعلم التمثيل البصري واللغوي

Zhe Gan, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, Jingjing Liu
التدريب العدواني على نطاق واسع لتعلم التمثيل البصري واللغوي
الملخص

نقدّم VILLA، أول مجهود معروف مُتّخذ على التدريب المُضادّ على نطاق واسع لتعلم التمثيل البصري-اللغوي (V+L). يتكوّن VILLA من مرحلتين تدريسيتين: (أ) التدريب المُضادّ الأولي غير المرتبط بالمهام؛ يليه (ب) التدريب الدقيق المُضادّ المُخصص للمهام. بدلًا من إضافة اضطرابات مُضادة على بكسلات الصور ورموز النصوص، نقترح إجراء التدريب المُضادّ في فضاء التمثيل (embedding) لكلٍ من الوسائط. ولتمكين التدريب على نطاق واسع، نستخدم استراتيجية التدريب المُضادّ "المُتاحة مجانًا" (free adversarial training)، ونُدمجها مع تنظيم مبني على تباين كولبوج-ليبلر (KL-divergence) لتعزيز درجة أكبر من التماثل (invariance) في فضاء التمثيل. وقد طبّقنا VILLA على النماذج الحالية الأفضل أداءً في مجال V+L، وحققنا أداءً جديدًا يُعدّ الأفضل عالميًا على طيف واسع من المهام، بما في ذلك الإجابة على الأسئلة البصرية (Visual Question Answering)، والاستدلال البصري-الإنساني (Visual Commonsense Reasoning)، واسترجاع الصور والنصوص (Image-Text Retrieval)، وفهم التعبيرات الإشارة (Referring Expression Comprehension)، والانسجام البصري (Visual Entailment)، ومهام NLVR2.

التدريب العدواني على نطاق واسع لتعلم التمثيل البصري واللغوي | أحدث الأوراق البحثية | HyperAI