الملخص

يستفيد تعلم تمثيل الرؤية واللغة بشكل كبير من محاذاة الصورة والنص عبر الخسائر التضادية (مثل خسارة InfoNCE). يُعزى نجاح هذه الاستراتيجية للمحاذاة إلى قدرتها على زيادة المعلومات المتبادلة (MI) بين صورة ونصها المطابق. ومع ذلك، فإن أداء المحاذاة متعددة الوسائط (CMA) ببساطة يتجاهل إمكانات البيانات داخل كل وسيلة، مما قد يؤدي إلى تدهور التمثيلات. على سبيل المثال، رغم أن نماذج CMA قادرة على تقريب أزواج الصورة-النص في فضاء التضمين، إلا أنها لا تضمن أن المدخلات المشابهة من نفس الوسيلة تبقى قريبة. يمكن أن يزداد هذا المشكلة سوءًا عندما تكون بيانات التدريب الأولي ضوضائية. في هذا البحث، نقترح تعلم التضاد الثلاثي (TCL) لتدريب الرؤية واللغة الأولي من خلال الاستفادة من الإشراف الذاتي متعدد الوسائط والإشراف الذاتي داخل الوسيلة. بالإضافة إلى CMA، يُقدم TCL هدفًا تضاديًا داخل الوسيلة لتقديم فوائد مكملة في تعلم التمثيل. للحصول على أفضل استفادة من المعلومات المحلية والهيكلية من مدخلات الصورة والنص، يقوم TCL بزيادة متوسط المعلومات المتبادلة بين المناطق المحلية للصورة/النص وملخصها العالمي. حسب علمنا، هو أول عمل يأخذ بعين الاعتبار المعلومات الهيكلية المحلية لتعلم التمثيل متعدد الوسائط. أظهرت التقييمات التجريبية أن نهجنا تنافسي ويحقق الحالة الجديدة للفن في مجموعة متنوعة من المهام الشائعة المتعلقة بالرؤية واللغة مثل استرجاع الصورة-النص وإجابة الأسئلة البصرية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

التدريب المسبق للرؤية واللغة باستخدام التعلم التبايني الثلاثي

Jinyu Yang extsuperscript1 Jiali Duan extsuperscript2 Son Tran extsuperscript2 Yi Xu extsuperscript2 Sampath Chanda extsuperscript2 Liqun Chen extsuperscript2 Belinda Zeng extsuperscript2 Trishul Chilimbi extsuperscript2 Junzhou Huang extsuperscript1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التدريب المسبق للرؤية واللغة باستخدام التعلم التبايني الثلاثي

Jinyu Yang extsuperscript1 Jiali Duan extsuperscript2 Son Tran extsuperscript2 Yi Xu extsuperscript2 Sampath Chanda extsuperscript2 Liqun Chen extsuperscript2 Belinda Zeng extsuperscript2 Trishul Chilimbi extsuperscript2 Junzhou Huang extsuperscript1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التدريب المسبق للرؤية واللغة باستخدام التعلم التبايني الثلاثي

Jinyu Yang extsuperscript1 Jiali Duan extsuperscript2 Son Tran extsuperscript2 Yi Xu extsuperscript2 Sampath Chanda extsuperscript2 Liqun Chen extsuperscript2 Belinda Zeng extsuperscript2 Trishul Chilimbi extsuperscript2 Junzhou Huang extsuperscript1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters