اسأل، انتبه وأجب: استكشاف الانتباه المكاني!", الذي يُرشد بالسؤال، للإجابة البصرية على الأسئلة

نتناول مشكلة الإجابة على الأسئلة البصرية (VQA)، والتي تتطلب فهمًا مشتركًا للصورة واللغة لإعطاء إجابة عن صورة معينة. الطرق الحديثة قد طبقت أساليب التسمية التوضيحية العميقة للصور المستندة إلى الشبكات التلافيفية-التكرارية على هذه المشكلة، لكنها فشلت في نمذجة الاستدلال المكاني. لحل هذا المشكل، نقترح نموذجًا نطلق عليه شبكة الذاكرة المكانية ونطبقه على مهمة الإجابة على الأسئلة البصرية. الشبكات العصبية ذات الذاكرة هي شبكات عصبية تكرارية تحتوي على آلية انتباه صريحة تختار أجزاء محددة من المعلومات المخزنة في الذاكرة. شبكتنا للذاكرة المكانية تخزن تنشيطات الخلايا العصبية من مناطق مكانية مختلفة في الصورة في ذاكرتها، وتستخدم السؤال لاختيار المناطق ذات الصلة لحساب الإجابة، وهو عملية تشكل "قفزة" واحدة في الشبكة. نقترح هندسة انتباه مكانية جديدة تقوم بتوافق الكلمات مع أقسام الصورة في القفزة الأولى، ونحصل على نتائج أفضل بإضافة قفزة ثانية للانتباه تأخذ بعين الاعتبار السؤال بأكمله لاختيار الأدلة البصرية بناءً على نتائج القفزة الأولى. لفهم أفضل للمستوى الاستدلالي الذي تعلمه الشبكة، نصمم أسئلة مصنعة تتطلب بشكل خاص الاستدلال المكاني ونقوم برسم أوزان الانتباه. نقيم نموذجنا على مجموعتين من البيانات المنشورتين للإجابة على الأسئلة البصرية، DAQUAR [1] و VQA [2]، ونحصل على نتائج أفضل مقارنة بنموذج أساس عميق قوي (iBOWIMG) يقوم بتجميع خصائص الصورة والسؤال لتوقع الإجابة [3].