وينلان: جسر بين الرؤية واللغة من خلال التدريب المسبق متعدد الوسائط على نطاق واسع

تم استكشاف نماذج التدريب المسبق متعددة الوسائط بشكل مكثف في السنوات الأخيرة لسد الفجوة بين الرؤية واللغة. ومع ذلك، فإن معظم هذه النماذج تُحدِّد التفاعل بين الأزواج المرئية-النصية بشكل صريح، بافتراض وجود ارتباط دلالي قوي بين الوسائط النصية والمرئية. وبما أن هذا الافتراض القوي غالبًا ما يكون غير صحيح في السياقات الواقعية، اخترنا نمذجة الارتباط المتبادل بين الوسائط بشكل غير صريح لتدريب نماذج متعددة الوسائط على نطاق واسع، وهو ما يمثل محور المشروع الصيني "WenLan" الذي يقوده فريقنا. وبشكل خاص، وبافتراض ارتباط ضعيف بين الأزواج المرئية-النصية، نقترح نموذجًا ثنائي البرج يُسمى BriVL ضمن إطار التعلم التبايني بين الوسائط. على عكس نموذج OpenAI CLIP الذي يستخدم طريقة بسيطة للتعلم التبايني، قمنا بتصميم خوارزمية أكثر تقدمًا من خلال تكييف أحدث تقنية MoCo في السياق متعدد الوسائط. وباستخدام قاعدة بيانات كبيرة قائمة على الطابور، يمكن لنموذج BriVL استيعاب عدد أكبر من العينات السلبية ضمن موارد GPU المحدودة. ونتيجة لذلك، قمنا أيضًا ببناء مجموعة بيانات كبيرة متعددة المصادر باللغة الصينية تُسمى RUC-CAS-WenLan لتدريب نموذج BriVL لدينا. وأظهرت التجارب الواسعة أن النموذج المُدرّب مسبقًا BriVL يتفوق على كل من UNITER وOpenAI CLIP في مجموعة متنوعة من المهام اللاحقة.