KVL-BERT: BERT مُعزَّز بالمعارف للسياق البصري واللغوي للاستدلال السياقي البصري

الاستنتاج يُعدّ قدرة حاسمة نحو الفهم البصري الشامل. ولتطوير آلات تمتلك قدرات فهم بصري وتحليلي على مستوى الإدراك، تم تقديم مهمة الاستنتاج البصري المشترك (VCR). في هذه المهمة، عند طرح سؤال معقد حول صورة معينة، يجب على الآلة الإجابة بشكل صحيح ثم تقديم تبرير يُفسّر سبب الإجابة. وقد أظهرت الأساليب التي تعتمد نموذج BERT القوي كعمود فقري لتعلم التمثيل المشترك بين محتوى الصورة واللغة الطبيعية تحسينات واعدة في أداء مهمة VCR. ومع ذلك، لم تُستخدم أي من الطرق الحالية المعرفة المشتركة في الاستنتاج البصري المشترك، وهو ما نؤمن بأنه سيكون مفيدًا جدًا في هذه المهمة. وباستخدام الدعم من المعرفة المشتركة، يمكن الإجابة على أسئلة معقدة حتى عندما لا تكون المعلومات المطلوبة موضحة في الصورة، وذلك من خلال التفكير المعرفي. لذلك، قمنا بدمج المعرفة المشتركة في نموذج BERT عبر الوسائط، واقترحنا نموذجًا جديدًا يُسمّى BERT المُعزّز بالمعرفة البصرية واللغوية (KVL-BERT اختصارًا). علاوةً على إدخال محتوى بصري ولغوي كمدخلات، تم دمج المعرفة المشتركة الخارجية المستخرجة من مصادر مثل ConceptNet داخل طبقات متعددة من نموذج Transformer. ولضمان الحفاظ على المعلومات الهيكلية والتمثيل الدلالي للجملة الأصلية، اقترحنا استخدام تضمين الموضع النسبي (relative position embedding) وتقنيات الانتباه المُقنّع ذاتيًا (mask-self-attention) لتقليل التأثير بين المعرفة المشتركة المُدمجة والمكونات غير المرتبطة الأخرى في التسلسل المدخل. مقارنةً بالنماذج المخصصة للمهام والأنماط العامة للتدريب المسبق غير المخصصة للمهام، يتفوّق نموذج KVL-BERT بشكل كبير على النماذج الأخرى.