ERNIE-ViL: تمثيلات متعددة الحواس مُعززة بالمعرفة من خلال رسم بياني للمشهد

نُقدّم نهجًا مُعزّزًا بالمعرفة يُدعى ERNIE-ViL، والذي يدمج المعرفة الهيكلية المستمدة من رسومات المشهد لتعلم تمثيلات مشتركة بين الرؤية واللغة. يسعى ERNIE-ViL إلى إقامة ارتباطات معنوية مفصلة (الكائنات، وصفات الكائنات، والعلاقات بين الكائنات) بين الرؤية واللغة، وهي عناصر ضرورية للمهام المتعددة الوسائط المرتبطة بالرؤية واللغة. باستخدام رسومات المشهد الخاصة بالمشاهد البصرية، يقوم ERNIE-ViL ببناء مهام توقع رسم المشهد، أي مهام توقع الكائن، وتصفية الصفة، وربط العلاقات، خلال مرحلة التدريب المسبق. وبشكل خاص، تُنفَّذ هذه المهام من خلال التنبؤ بعُقد من أنواع مختلفة في رسم المشهد الذي يتم استخلاصه من الجملة. وبذلك، يمكن لـ ERNIE-ViL تعلُّم تمثيلات مشتركة تمثل مطابقة المعاني المفصلة بين الرؤية واللغة. وبعد التدريب المسبق على مجموعات بيانات كبيرة من الصور والنصوص المُحاذاة، نختبر فعالية ERNIE-ViL على خمسة مهام لاحقة متعددة الوسائط. ويحقق ERNIE-ViL أداءً من الدرجة الأولى في جميع هذه المهام، ويتصدّر قائمة التصنيف في مسابقة VCR بتحسّن مطلق قدره 3.7%.