HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المسبق للرؤية واللغة باستخدام التعلم التبايني الثلاثي

Jinyu Yang extsuperscript1 Jiali Duan extsuperscript2 Son Tran extsuperscript2 Yi Xu extsuperscript2 Sampath Chanda extsuperscript2 Liqun Chen extsuperscript2 Belinda Zeng extsuperscript2 Trishul Chilimbi extsuperscript2 Junzhou Huang extsuperscript1

الملخص

يستفيد تعلم تمثيل الرؤية واللغة بشكل كبير من محاذاة الصورة والنص عبر الخسائر التضادية (مثل خسارة InfoNCE). يُعزى نجاح هذه الاستراتيجية للمحاذاة إلى قدرتها على زيادة المعلومات المتبادلة (MI) بين صورة ونصها المطابق. ومع ذلك، فإن أداء المحاذاة متعددة الوسائط (CMA) ببساطة يتجاهل إمكانات البيانات داخل كل وسيلة، مما قد يؤدي إلى تدهور التمثيلات. على سبيل المثال، رغم أن نماذج CMA قادرة على تقريب أزواج الصورة-النص في فضاء التضمين، إلا أنها لا تضمن أن المدخلات المشابهة من نفس الوسيلة تبقى قريبة. يمكن أن يزداد هذا المشكلة سوءًا عندما تكون بيانات التدريب الأولي ضوضائية. في هذا البحث، نقترح تعلم التضاد الثلاثي (TCL) لتدريب الرؤية واللغة الأولي من خلال الاستفادة من الإشراف الذاتي متعدد الوسائط والإشراف الذاتي داخل الوسيلة. بالإضافة إلى CMA، يُقدم TCL هدفًا تضاديًا داخل الوسيلة لتقديم فوائد مكملة في تعلم التمثيل. للحصول على أفضل استفادة من المعلومات المحلية والهيكلية من مدخلات الصورة والنص، يقوم TCL بزيادة متوسط المعلومات المتبادلة بين المناطق المحلية للصورة/النص وملخصها العالمي. حسب علمنا، هو أول عمل يأخذ بعين الاعتبار المعلومات الهيكلية المحلية لتعلم التمثيل متعدد الوسائط. أظهرت التقييمات التجريبية أن نهجنا تنافسي ويحقق الحالة الجديدة للفن في مجموعة متنوعة من المهام الشائعة المتعلقة بالرؤية واللغة مثل استرجاع الصورة-النص وإجابة الأسئلة البصرية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp