الاستدلال من الخشنة إلى الدقيقة للإجابة على الأسئلة المرئية

إغلاق الفجوة الدلالية بين الصورة والسؤال يُعد خطوة مهمة لتحسين دقة مهمة الإجابة على الأسئلة البصرية (VQA). ومع ذلك، يركّز معظم الطرق الحالية لـ VQA على آليات الانتباه أو العلاقات البصرية لاستنتاج الإجابة، بينما لا يتم استغلال الخصائص على المستويات الدلالية المختلفة بشكل كامل. في هذا البحث، نقدّم إطارًا جديدًا للاستنتاج لسد الفجوة بين الخصائص البصرية والمؤشرات الدلالية في مهمة VQA. تبدأ طريقتنا باستخراج الخصائص وال Predicate (العوامل التوصيفية) من الصورة والسؤال. ثم نقترح إطارًا جديدًا للاستنتاج يُمكّن من تعلّم هذه الخصائص والعوامل بشكل فعّال ومتزامن بطريقة من التفصيل الخشن إلى الدقيق. تُظهر النتائج التجريبية المكثفة على ثلاث مجموعات بيانات كبيرة لـ VQA أن النهج المقترح يحقق دقة متفوّقة مقارنةً بطرق الحالة الحالية. علاوةً على ذلك، يوفّر إطار الاستنتاج لدينا طريقة قابلة للتفسير لفهم قرارات الشبكة العصبية العميقة عند التنبؤ بالإجابة.