إرنى-في إل 2.0: التعلم التبايني متعدد الآراء لتدريب النصوص والصور مسبقًا

النماذج المُدربة مسبقًا الحديثة لدمج الرؤية واللغة (VLP) المستندة إلى المُشفر المزدوج قد جذبت اهتمامًا واسعًا من الأوساط الأكاديمية والصناعية بفضل أدائها المتميز في مجموعة متنوعة من المهام متعددة الوسائط وكفاءتها الحسابية العالية. تسعى هذه النماذج إلى تعلم التمثيل متعدد الوسائط باستخدام التعلم التضادي على أزواج الصور والنصوص، ومع ذلك، تعتمد الارتباطات بين الوسائط التي تم بناؤها فقط على وجهة نظر واحدة لكل وسيلة. في الواقع، تحتوي الصورة أو النص على وجهات نظر محتملة متنوعة، تمامًا كما يمكن للبشر التقاط مشهد من العالم الحقيقي عبر وصفه بأوصاف متنوعة أو تصويره بصور مختلفة.في هذا البحث، نقترح ERNIE-ViL 2.0، وهو إطار للتعلم التضادي متعدد الوجهات يهدف إلى بناء ارتباطات داخلية وخارجية بين وجهات النظر المختلفة بشكل متزامن، بهدف تعلم تمثيل أكثر صلابة بين الوسائط. تحديدًا، نقوم ببناء وجهات نظر متعددة داخل كل وسيلة لتعلم الارتباط الداخلي بين الوسائط لتعزيز التمثيل الفردي للوسيلة. بالإضافة إلى وجهات النظر البصرية/النصية الأصلية، نقوم ببناء سلاسل من علامات الكائن كوجهة نظر خاصة بالنص لتقليل الفجوة الدلالية بين الوسائط في أزواج الصور والنصوص الضوضائية.تم تدريب ERNIE-ViL 2.0 مسبقًا باستخدام 29 مليون مجموعة بيانات متاحة للجمهور، مما أدى إلى تحقيقها لنتائج تنافسية في استرجاع البيانات متعدد الوسائط باللغة الإنجليزية. بالإضافة إلى ذلك، لتوسيع نطاق طريقة عملنا إلى المهام المتعددة الوسائط باللغة الصينية، قمنا بتدريب ERNIE-ViL 2.0 عن طريق زيادة حجم مجموعات البيانات المستخدمة في التدريب المسبق إلى 1.5 مليار زوج صورة-نص باللغة الصينية، مما أدى إلى تحسينات كبيرة مقارنة بالنتائج السابقة لأفضل ما هو معروف (SOTA) في استرجاع البيانات متعدد الوسائط باللغة الصينية.سنقوم بإطلاق النماذج المُدربة مسبقًا لدينا على الرابط: https://github.com/PaddlePaddle/ERNIE