التعليق على الصور والإجابة على الأسئلة البصرية بناءً على السمات والمعرفة الخارجية

حققت العديد من التقدمات الحديثة في مشاكل التحويل من الصور إلى اللغة من خلال الجمع بين شبكات العصبونات المتشابكة (CNNs) وشبكات العصبونات المتكررة (RNNs). هذا النهج لا يمثل بشكل صريح المفاهيم الدلالية العليا، بل يسعى للتقدم مباشرة من خصائص الصورة إلى النص. في هذه الورقة البحثية، نقترح أولاً طريقة لدمج المفاهيم الدلالية العليا في النهج الناجح لـ CNN-RNN، ونظهر أن هذا يؤدي إلى تحسين كبير على أفضل ما تم تحقيقه حتى الآن في كل من إضافة التعليقات على الصور والرد على الأسئلة البصرية. كما نوضح أن نفس الآلية يمكن استخدامها لدمج المعرفة الخارجية، والتي تعد مهمة للغاية للرد على الأسئلة البصرية المعقدة. بوجه خاص، قمنا بتصميم نموذج للأسئلة البصرية يستخدم تمثيلاً داخلياً لمحتوى الصورة مع المعلومات المستخرجة من قاعدة بيانات عامة للمعرفة للإجابة على مجموعة واسعة من الأسئلة القائمة على الصور. ويسمح هذا النموذج خاصة بطرح أسئلة حول محتوى الصورة حتى عندما لا تحتوي الصورة نفسها على إجابة كاملة. وقد حقق نموذجنا النهائي أفضل النتائج المبلغ عنها في كل من إضافة التعليقات على الصور والرد على الأسئلة البصرية في عدة مجموعات بيانات معيارية.