منذ 2 أشهر

VL-BERT: التدريب المسبق لتمثيلات بصرية-لغوية عامة

Weijie Su; Xizhou Zhu; Yue Cao; Bin Li; Lewei Lu; Furu Wei; Jifeng Dai

الملخص

نقدم تمثيلًا عامًا قابلًا للتدريب المسبق لمهام التكامل البصري-اللغوي، يُعرف باسم Visual-Linguistic BERT (اختصارًا: VL-BERT). يستخدم VL-BERT نموذج Transformer البسيط والقوي كأساس، ويعززه ليقبل ميزات مدمجة بصرية ولغوية كمدخلات. في هذا النموذج، يكون كل عنصر من عناصر المدخل إما كلمة من الجملة المدخلة أو منطقة اهتمام (RoI) من الصورة المدخلة. صُمم هذا النموذج ليتناسب مع معظم مهام التكامل البصري-اللغوي اللاحقة. لاستغلال هذا التمثيل العام بشكل أفضل، قمنا بتدريب VL-BERT بشكل مسبق على مجموعة بيانات Conceptual Captions الضخمة الحجم بالإضافة إلى مجموعة نصوص فقط. أظهرت التحليلات التجريبية الواسعة أن عملية التدريب المسبق يمكنها تحسين تناسق الأدلة البصرية واللغوية وتعزيز مهام اللاحقة مثل استدلال العقل البصري، الإجابة على الأسئلة البصرية وفهم التعابير المرجعية. من الجدير بالذكر أن VL-BERT حاز على المركز الأول كنموذج فردي في لوحة تصنيف معيار VCR. تم نشر الكود في \url{https://github.com/jackroos/VL-BERT}.