التركيز المشترك على المناطق الحرة والكشف عنها باستخدام التضمين المضاعف للخصائص متعددة الوسائط للاستجابة للأسئلة البصرية

في الآونة الأخيرة، حظيت مهمة الإجابة على الأسئلة المرئية (VQA) باهتمام متزايد في مجال الذكاء الاصطناعي. تتبني معظم الأساليب الحالية لـ VQA آلية الانتباه البصري بهدف ربط السؤال المدخل بمناطق الصورة المقابلة لتحقيق إجابة فعالة على السؤال. يتم التحقيق بشكل أساسي في آليات الانتباه البصري القائمة على المناطق الحرة والقائمة على الكشف، حيث تركز الأولى على مناطق الصورة الحرة الشكل والثانية على مناطق الصندوق المحددة مسبقًا. نعتقد أن هاتين آليتي الانتباه قادرتان على تقديم معلومات مكملة ويجب دمجهما بشكل فعال لتحسين حل مشكلة VQA. في هذا البحث، نقترح شبكة عصبية عميقة جديدة لـ VQA تقوم بدمج كلا آلية الانتباه. يدمج الإطار المقترح خصائص مناطق الصورة الحرة الشكل، وصناديق الكشف، وتمثيلات السؤال عبر نظام تضمين خصائص متعدد الوسائط مضروبًا للتركيز المشترك على مناطق الصورة الحرة الشكل المتعلقة بالسؤال وصناديق الكشف لتحقيق إجابات أكثر دقة. تم تقييم الطريقة المقترحة بشكل شامل باستخدام مجموعتين من البيانات متاحتين للجمهور، وهما COCO-QA و VQA، وأظهرت أداءً أفضل من أفضل الأساليب المتاحة حاليًا. يمكن الوصول إلى شفرة المصدر من خلال الرابط: https://github.com/lupantech/dual-mfa-vqa.