HyperAIHyperAI

Command Palette

Search for a command to run...

مُرَال: استرجاع متعدد الوسائط ومتعدد المهام عبر اللغات

Aashi Jain Mandy Guo Krishna Srinivasan Ting Chen Sneha Kudugunta Chao Jia Yinfei Yang Jason Baldridge

الملخص

توفر كل من أزواج الصور والتعليقات النصية وأزواج الترجمة وسيلة لتعلم التمثيلات العميقة والروابط بين اللغات. نستخدم كلا النوعين من الأزواج في نموذج MURAL (تمثيلات متعددة الوسائط، متعددة المهام عبر اللغات)، وهو نموذج مُشفّر مزدوج يحلّ مهمتين: 1) مطابقة الصورة والنص، و2) مطابقة أزواج الترجمة. وباستخدام مليارات أزواج الترجمة، يمتد نموذج MURAL ليتجاوز نموذج ALIGN (Jia et al., PMLR'21)—الذي يُعدّ من أحدث النماذج المُشفّرة المزدوجة التي تم تدريبها على 1.8 مليار زوج صورة-نص مشوّش. عند استخدام نفس المُشفّرات، تُظهر أداء MURAL تماشياً مع أو تفوق أداء ALIGN في مهام استرجاع المحتوى عبر الوسائط على اللغات الغنية بالموارد عبر عدة مجموعات بيانات. والأهم من ذلك، فإنه يُحسّن بشكل ملحوظ الأداء على اللغات غير الغنية بالموارد، مما يدل على أن التعلّم النصي-النصي يمكنه تجاوز نقص الأمثلة الخاصة بأزواج الصور والتعليقات النصية لهذه اللغات. على سبيل المثال، على مجموعة بيانات Wikipedia Image-Text، تحسّن نسخة MURAL-base متوسط استرجاع الصفر (zero-shot) بنسبة 8.1% في المتوسط بالنسبة لثماني لغات غير غنية بالموارد، وبنسبة 6.8% عند التخصيص (fine-tuning). علاوةً على ذلك، نُظهر أن تمثيلات النص في MURAL تتشكل في مجموعات (تجميعات) لا تقتصر فقط على الارتباطات الأسرية بين اللغات، بل تمتد أيضًا إلى التماسك الإقليمي اللغوي، مثل ما يعرف بـ "البنية اللغوية البلقانية" (Balkan Sprachbund).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp