ViLBERT: التدريب المسبق لتمثيلات بصرية لغوية غير مرتبطة بالمهمة لمهام الرؤية واللغة

نقدم نموذج ViLBERT (اختصار لـ Vision-and-Language BERT)، وهو نموذج لتعلم تمثيلات مشتركة غير محددة المهمة لمحتوى الصور واللغة الطبيعية. قمنا بتوسيع هندسة BERT الشهيرة إلى نموذج متعدد الوسائط ذو تيارين، يعالج المدخلات البصرية والنصية في تيارين منفصلين يتفاعلان من خلال طبقات الترانسفورمر المشتركة بالانتباه. نقوم بتدريب النموذج مسبقًا من خلال مهمتين وكيتين على مجموعة البيانات الكبيرة والمجمعة تلقائيًا Conceptual Captions، ثم ننقله إلى عدة مهمات راسخة في مجال الرؤية واللغة -- الإجابة على الأسئلة البصرية، الاستدلال البصري بالمعرفة الشائعة، التعبيرات المرجعية، واسترجاع الصور بناءً على العناوين -- بإضافة تعديلات طفيفة فقط لهندسة النموذج الأساسية. نلاحظ تحسينات كبيرة في جميع المهام مقارنة بالنموذج المحدد للمهمة الموجود حاليًا -- حيث حققنا أفضل الأداء في جميع الأربع مهام. يمثل عملنا تحولًا بعيدًا عن تعلم الروابط بين الرؤية واللغة كجزء فقط من تدريب المهمة نحو معاملة التأصيل البصري كقدرة قابلة للتدريب المسبق والنقل.请注意,这里的人名和机构名称如“ViLBERT”、“BERT”、“Conceptual Captions”等均保留了英文原名,以确保专业性和信息的完整性。同时,译文在保持原意的基础上进行了适当的结构调整,以适应阿拉伯语的表达习惯。