تدريب وحدات الإجابة المتكررة باستخدام تقليل الخسارة المشتركة لـ VQA

نقترح خوارزمية جديدة للإجابة على الأسئلة البصرية تعتمد على شبكة عصبية عميقة متكررة، حيث يتوافق كل وحدة في الشبكة مع وحدة إجابة كاملة تحتوي على آلية الانتباه الخاصة بها. يتم تحسين الشبكة من خلال تقليل الخسارة المجمعة من جميع الوحدات، والتي تشترك في معلمات النموذج بينما تتلقى معلومات مختلفة لحساب احتمالية الانتباه. بالنسبة للتدريب، يقوم نموذجنا بالتركيز على منطقة داخل خريطة ميزات الصورة، ويحدث ذاكرته بناءً على السؤال والميزات المرئية التي تم التركيز عليها، ثم يجيب على السؤال بناءً على حالة ذاكرته. يتم تنفيذ هذا الإجراء لحساب الخسارة في كل خطوة. الدافع وراء هذا النهج هو ملاحظتنا أن الاستدلالات المتعددة الخطوات غالبًا ما تكون ضرورية للإجابة على الأسئلة بينما قد يكون لكل مشكلة عدد خطوات مرغوب فيه ومختلف، وهو أمر صعب تحديده في الممارسة العملية. لذلك، نجعل دائمًا أول وحدة في الشبكة تحل المشكلات، ولكن نسمح لها بتعلم المعرفة من باقي الوحدات عن طريق الرجوع التراجعي إلا إذا أدى ذلك إلى تدهور النموذج. لتنفيذ هذه الفكرة، نتوقف عن تدريب كل وحدة بمجرد بدء حدوث الانطباع الزائد (overfitting). لاحظ أنه بما أن النماذج الأكثر تعقيدًا تميل إلى الانطباع الزائد بسرعة أكبر على الأسئلة الأسهل، فإن آخر وحدة إجابة في الشبكة العصبية المتكررة المفتوحة غالبًا ما تكون أول من يتم إيقافها بينما تظل الأولى هي الأخيرة. نقوم بتوقع خطوة واحدة لسؤال جديد باستخدام النموذج المشترك. تعمل هذه الاستراتيجية بشكل أفضل من الخيارات الأخرى ضمن إطار عملنا لأن النموذج المختار يتم تدريبه بكفاءة من جميع الوحدات دون الانطباع الزائد. حققت الخوارزمية المقترحة أداءً أفضل من باقي الأساليب القائمة على الانتباه المتعدد الخطوات باستخدام التوقع ذو الخطوة الواحدة في مجموعة بيانات VQA (Visual Question Answering).