Command Palette
Search for a command to run...
التدريب المسبق للرؤية واللغة باستخدام التعلم التبايني الثلاثي
التدريب المسبق للرؤية واللغة باستخدام التعلم التبايني الثلاثي
Jinyu Yang extsuperscript1 Jiali Duan extsuperscript2 Son Tran extsuperscript2 Yi Xu extsuperscript2 Sampath Chanda extsuperscript2 Liqun Chen extsuperscript2 Belinda Zeng extsuperscript2 Trishul Chilimbi extsuperscript2 Junzhou Huang extsuperscript1
الملخص
يستفيد تعلم تمثيل الرؤية واللغة بشكل كبير من محاذاة الصورة والنص عبر الخسائر التضادية (مثل خسارة InfoNCE). يُعزى نجاح هذه الاستراتيجية للمحاذاة إلى قدرتها على زيادة المعلومات المتبادلة (MI) بين صورة ونصها المطابق. ومع ذلك، فإن أداء المحاذاة متعددة الوسائط (CMA) ببساطة يتجاهل إمكانات البيانات داخل كل وسيلة، مما قد يؤدي إلى تدهور التمثيلات. على سبيل المثال، رغم أن نماذج CMA قادرة على تقريب أزواج الصورة-النص في فضاء التضمين، إلا أنها لا تضمن أن المدخلات المشابهة من نفس الوسيلة تبقى قريبة. يمكن أن يزداد هذا المشكلة سوءًا عندما تكون بيانات التدريب الأولي ضوضائية. في هذا البحث، نقترح تعلم التضاد الثلاثي (TCL) لتدريب الرؤية واللغة الأولي من خلال الاستفادة من الإشراف الذاتي متعدد الوسائط والإشراف الذاتي داخل الوسيلة. بالإضافة إلى CMA، يُقدم TCL هدفًا تضاديًا داخل الوسيلة لتقديم فوائد مكملة في تعلم التمثيل. للحصول على أفضل استفادة من المعلومات المحلية والهيكلية من مدخلات الصورة والنص، يقوم TCL بزيادة متوسط المعلومات المتبادلة بين المناطق المحلية للصورة/النص وملخصها العالمي. حسب علمنا، هو أول عمل يأخذ بعين الاعتبار المعلومات الهيكلية المحلية لتعلم التمثيل متعدد الوسائط. أظهرت التقييمات التجريبية أن نهجنا تنافسي ويحقق الحالة الجديدة للفن في مجموعة متنوعة من المهام الشائعة المتعلقة بالرؤية واللغة مثل استرجاع الصورة-النص وإجابة الأسئلة البصرية.