HyperAIHyperAI
منذ 2 أشهر

التدريب المسبق للرؤية واللغة باستخدام التعلم التبايني الثلاثي

Jinyu Yang; Jiali Duan; Son Tran; Yi Xu; Sampath Chanda; Liqun Chen; Belinda Zeng; Trishul Chilimbi; Junzhou Huang
التدريب المسبق للرؤية واللغة باستخدام التعلم التبايني الثلاثي
الملخص

يستفيد تعلم تمثيل الرؤية واللغة بشكل كبير من محاذاة الصورة والنص عبر الخسائر التضادية (مثل خسارة InfoNCE). يُعزى نجاح هذه الاستراتيجية للمحاذاة إلى قدرتها على زيادة المعلومات المتبادلة (MI) بين صورة ونصها المطابق. ومع ذلك، فإن أداء المحاذاة متعددة الوسائط (CMA) ببساطة يتجاهل إمكانات البيانات داخل كل وسيلة، مما قد يؤدي إلى تدهور التمثيلات. على سبيل المثال، رغم أن نماذج CMA قادرة على تقريب أزواج الصورة-النص في فضاء التضمين، إلا أنها لا تضمن أن المدخلات المشابهة من نفس الوسيلة تبقى قريبة. يمكن أن يزداد هذا المشكلة سوءًا عندما تكون بيانات التدريب الأولي ضوضائية. في هذا البحث، نقترح تعلم التضاد الثلاثي (TCL) لتدريب الرؤية واللغة الأولي من خلال الاستفادة من الإشراف الذاتي متعدد الوسائط والإشراف الذاتي داخل الوسيلة. بالإضافة إلى CMA، يُقدم TCL هدفًا تضاديًا داخل الوسيلة لتقديم فوائد مكملة في تعلم التمثيل. للحصول على أفضل استفادة من المعلومات المحلية والهيكلية من مدخلات الصورة والنص، يقوم TCL بزيادة متوسط المعلومات المتبادلة بين المناطق المحلية للصورة/النص وملخصها العالمي. حسب علمنا، هو أول عمل يأخذ بعين الاعتبار المعلومات الهيكلية المحلية لتعلم التمثيل متعدد الوسائط. أظهرت التقييمات التجريبية أن نهجنا تنافسي ويحقق الحالة الجديدة للفن في مجموعة متنوعة من المهام الشائعة المتعلقة بالرؤية واللغة مثل استرجاع الصورة-النص وإجابة الأسئلة البصرية.