نموذج انتباه ديناميكي مركّز لأسئلة الإجابة البصرية

تثير مشاكل الإجابة على الأسئلة المرئية (VQA) اهتمامًا متزايدًا من عدة تخصصات بحثية. حل هذه المشاكل يتطلب تقنيات من مجال الرؤية الحاسوبية لفهم المحتوى البصري للصورة أو الفيديو المعروض، بالإضافة إلى تقنيات معالجة اللغة الطبيعية لفهم دلالات السؤال وإنتاج الإجابات. فيما يتعلق بنمذجة المحتوى البصري، فإن معظم الطرق الحالية في VQA تتبنى استراتيجية استخراج الخصائص العالمية من الصورة أو الفيديو، مما يؤدي حتمًا إلى فشل في التقاط المعلومات الدقيقة مثل التكوين المكاني لأكثر من كائن واحد. استخراج الخصائص من المناطق التي تم إنشاؤها تلقائيًا -- كما يفعل بعض طرق التعرف على الصور القائمة على المناطق -- لا يمكن أن يحل هذا المشكلة بشكل جوهري وقد يُدخل بعض الخصائص غير ذات الصلة والغزيرة بالسؤال. في هذا العمل، نقترح نموذج جديد للانتباه الديناميكي المركّز (FDA) لتوفير تمثيل أفضل للمحتوى البصري متوافق مع الأسئلة المقترحة. واعيًا بالمفردات الرئيسية في السؤال، يستخدم FDA كاشف أشياء جاهزًا لتحديد المناطق الهامة ويقوم بدمج المعلومات من هذه المناطق والخصائص العالمية عبر وحدة LSTM. يتم بعد ذلك دمج هذه التمثيلات المحركة بالسؤال مع تمثيل السؤال نفسه وإدخالها إلى وحدة الاستدلال لإنتاج الإجابات. تظهر التقييمات الواسعة على مجموعة بيانات معيارية كبيرة الحجم، VQA، بشكل واضح الأداء المتفوق لـ FDA على الخطوط الأساسية المعترف بها جيدًا.