شبكات الذاكرة الديناميكية للإجابة على الأسئلة البصرية والنصية

تظهر هندسات الشبكات العصبية ذات الذاكرة والآليات الانتباهية قدرات استدلال معينة مطلوبة للإجابة على الأسئلة. ومن بين هذه الهندسات، حصلت الشبكة العصبية ذات الذاكرة الديناميكية (DMN) على دقة عالية في مجموعة متنوعة من المهام اللغوية. ومع ذلك، لم يتم إثبات ما إذا كانت هذه الهندسة تحقق نتائج قوية في الإجابة على الأسئلة عندما لا يتم وضع علامات على الحقائق الداعمة أثناء التدريب أو ما إذا كان يمكن تطبيقها على وسائط أخرى مثل الصور. بناءً على تحليل للشبكة العصبية ذات الذاكرة الديناميكية (DMN)، نقترح عدة تحسينات لوحداتها الذاكرية والمدخلية. بالإضافة إلى هذه التغييرات، نقدم وحدة مدخلية جديدة للصور من أجل القدرة على الإجابة على الأسئلة البصرية. يحسن نموذجنا الجديد DMN+ الحالة الفنية المعاصرة في كل من مجموعة بيانات الإجابة على الأسئلة البصرية ومجموعة بيانات \babi-10k للأسئلة والإجابات النصية دون إشراف بالحقائق الداعمة.