HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب العدواني على نطاق واسع لتعلم التمثيل البصري واللغوي

Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu

الملخص

نقدّم VILLA، أول مجهود معروف مُتّخذ على التدريب المُضادّ على نطاق واسع لتعلم التمثيل البصري-اللغوي (V+L). يتكوّن VILLA من مرحلتين تدريسيتين: (أ) التدريب المُضادّ الأولي غير المرتبط بالمهام؛ يليه (ب) التدريب الدقيق المُضادّ المُخصص للمهام. بدلًا من إضافة اضطرابات مُضادة على بكسلات الصور ورموز النصوص، نقترح إجراء التدريب المُضادّ في فضاء التمثيل (embedding) لكلٍ من الوسائط. ولتمكين التدريب على نطاق واسع، نستخدم استراتيجية التدريب المُضادّ "المُتاحة مجانًا" (free adversarial training)، ونُدمجها مع تنظيم مبني على تباين كولبوج-ليبلر (KL-divergence) لتعزيز درجة أكبر من التماثل (invariance) في فضاء التمثيل. وقد طبّقنا VILLA على النماذج الحالية الأفضل أداءً في مجال V+L، وحققنا أداءً جديدًا يُعدّ الأفضل عالميًا على طيف واسع من المهام، بما في ذلك الإجابة على الأسئلة البصرية (Visual Question Answering)، والاستدلال البصري-الإنساني (Visual Commonsense Reasoning)، واسترجاع الصور والنصوص (Image-Text Retrieval)، وفهم التعبيرات الإشارة (Referring Expression Comprehension)، والانسجام البصري (Visual Entailment)، ومهام NLVR2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp