مُرَال: استرجاع متعدد الوسائط ومتعدد المهام عبر اللغات

توفر كل من أزواج الصور والتعليقات النصية وأزواج الترجمة وسيلة لتعلم التمثيلات العميقة والروابط بين اللغات. نستخدم كلا النوعين من الأزواج في نموذج MURAL (تمثيلات متعددة الوسائط، متعددة المهام عبر اللغات)، وهو نموذج مُشفّر مزدوج يحلّ مهمتين: 1) مطابقة الصورة والنص، و2) مطابقة أزواج الترجمة. وباستخدام مليارات أزواج الترجمة، يمتد نموذج MURAL ليتجاوز نموذج ALIGN (Jia et al., PMLR'21)—الذي يُعدّ من أحدث النماذج المُشفّرة المزدوجة التي تم تدريبها على 1.8 مليار زوج صورة-نص مشوّش. عند استخدام نفس المُشفّرات، تُظهر أداء MURAL تماشياً مع أو تفوق أداء ALIGN في مهام استرجاع المحتوى عبر الوسائط على اللغات الغنية بالموارد عبر عدة مجموعات بيانات. والأهم من ذلك، فإنه يُحسّن بشكل ملحوظ الأداء على اللغات غير الغنية بالموارد، مما يدل على أن التعلّم النصي-النصي يمكنه تجاوز نقص الأمثلة الخاصة بأزواج الصور والتعليقات النصية لهذه اللغات. على سبيل المثال، على مجموعة بيانات Wikipedia Image-Text، تحسّن نسخة MURAL-base متوسط استرجاع الصفر (zero-shot) بنسبة 8.1% في المتوسط بالنسبة لثماني لغات غير غنية بالموارد، وبنسبة 6.8% عند التخصيص (fine-tuning). علاوةً على ذلك، نُظهر أن تمثيلات النص في MURAL تتشكل في مجموعات (تجميعات) لا تقتصر فقط على الارتباطات الأسرية بين اللغات، بل تمتد أيضًا إلى التماسك الإقليمي اللغوي، مثل ما يعرف بـ "البنية اللغوية البلقانية" (Balkan Sprachbund).