منذ 16 أيام

وينلان: جسر بين الرؤية واللغة من خلال التدريب المسبق متعدد الوسائط على نطاق واسع

Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, Zongzheng Xi, Yueqian Yang, Anwen Hu, Jinming Zhao, Ruichen Li, Yida Zhao, Liang Zhang, Yuqing Song, Xin Hong, Wanqing Cui, Danyang Hou, Yingyan Li, Junyi Li, Peiyu Liu, Zheng Gong, Chuhao Jin, Yuchong Sun, Shizhe Chen, Zhiwu Lu, Zhicheng Dou, Qin Jin, Yanyan Lan, Wayne Xin Zhao, Ruihua Song, Ji-Rong Wen

عرض تفاصيل الورقة البحثية

وينلان: جسر بين الرؤية واللغة من خلال التدريب المسبق متعدد الوسائط على نطاق واسع

الملخص

تم استكشاف نماذج التدريب المسبق متعددة الوسائط بشكل مكثف في السنوات الأخيرة لسد الفجوة بين الرؤية واللغة. ومع ذلك، فإن معظم هذه النماذج تُحدِّد التفاعل بين الأزواج المرئية-النصية بشكل صريح، بافتراض وجود ارتباط دلالي قوي بين الوسائط النصية والمرئية. وبما أن هذا الافتراض القوي غالبًا ما يكون غير صحيح في السياقات الواقعية، اخترنا نمذجة الارتباط المتبادل بين الوسائط بشكل غير صريح لتدريب نماذج متعددة الوسائط على نطاق واسع، وهو ما يمثل محور المشروع الصيني "WenLan" الذي يقوده فريقنا. وبشكل خاص، وبافتراض ارتباط ضعيف بين الأزواج المرئية-النصية، نقترح نموذجًا ثنائي البرج يُسمى BriVL ضمن إطار التعلم التبايني بين الوسائط. على عكس نموذج OpenAI CLIP الذي يستخدم طريقة بسيطة للتعلم التبايني، قمنا بتصميم خوارزمية أكثر تقدمًا من خلال تكييف أحدث تقنية MoCo في السياق متعدد الوسائط. وباستخدام قاعدة بيانات كبيرة قائمة على الطابور، يمكن لنموذج BriVL استيعاب عدد أكبر من العينات السلبية ضمن موارد GPU المحدودة. ونتيجة لذلك، قمنا أيضًا ببناء مجموعة بيانات كبيرة متعددة المصادر باللغة الصينية تُسمى RUC-CAS-WenLan لتدريب نموذج BriVL لدينا. وأظهرت التجارب الواسعة أن النموذج المُدرّب مسبقًا BriVL يتفوق على كل من UNITER وOpenAI CLIP في مجموعة متنوعة من المهام اللاحقة.