REVIVE: تمثل التمثيل البصري الإقليمي أهمية في الإجابة على الأسئلة البصرية القائمة على المعرفة

تُعيد هذه الورقة النظر في تمثيل الصور في مسائل الإجابة على الأسئلة البصرية القائمة على المعرفة (VQA)، وتكشف أن استخدام المعلومات الإقليمية بشكل أفضل يمكن أن يُحسّن الأداء بشكل ملحوظ. وعلى الرغم من أن تمثيل الصور قد تم دراسته بشكل واسع في مسائل VQA التقليدية، إلا أنه ما زال غير مُستكشف بشكل كافٍ في مسائل VQA القائمة على المعرفة، رغم أن هاتين المهمتين تشتركان في الروح المشتركة، وهي الاعتماد على المدخلات البصرية للإجابة على الأسئلة. وبشكل خاص، نلاحظ أن معظم الطرق الحديثة المتطورة في مسائل VQA القائمة على المعرفة: 1) تستخرج ميزات بصرية إما من الصورة الكاملة أو بطريقة نافذة منزلقة لاسترجاع المعرفة، مما يؤدي إلى إهمال العلاقات المهمة داخل المناطق أو بين المناطق المختلفة للأجسام؛ 2) لا تُستغل الميزات البصرية بشكل فعّال في نموذج الإجابة النهائي، وهو ما يُعد أمرًا غير منطقي إلى حد ما. استنادًا إلى هذه الملاحظات، نقترح طريقة جديدة لمسألة VQA القائمة على المعرفة تُسمى REVIVE، والتي تحاول الاستفادة من المعلومات الصريحة المتعلقة بمناطق الأجسام ليس فقط في مرحلة استرجاع المعرفة، بل أيضًا في نموذج الإجابة. والدافع الرئيسي وراء هذه الطريقة هو أن مناطق الأجسام والعلاقات المتأصلة فيها تُعد عناصر حاسمة في مسائل VQA القائمة على المعرفة. أجرينا تجارب واسعة على مجموعة بيانات OK-VQA القياسية، وحققنا أداءً جديدًا يُعدّ الأفضل في مجاله، بدرجة دقة تبلغ 58.0٪، متفوّقين على أفضل طريقة سابقة بمقدار كبير (+3.6٪). كما أجرينا تحليلًا مفصلًا وبيّنا ضرورة استخدام المعلومات الإقليمية في مكونات الإطار المختلفة لمسائل VQA القائمة على المعرفة. وتم إتاحة الشفرة المصدرية بشكل علني على الرابط: https://github.com/yzleroy/REVIVE.