التعلم المتعدد الأوضاع للأسئلة البصرية وإجاباتها

تواصل الشبكات العصبية العميقة تحسين مستوى التقنيات المتقدمة في مهام التعرف على الصور باستخدام مجموعة متنوعة من الطرق. ومع ذلك، فإن تطبيقات هذه الطرق على البيانات متعددة الوسائط لا تزال محدودة. نقدم شبكات البقايا متعددة الوسائط (Multimodal Residual Networks - MRN) للتعلم المتبقي متعدد الوسائط في إجابة الأسئلة المرئية، والتي تمتد فكرة التعلم المتبقي العميق. بخلاف التعلم المتبقي العميق، تعمل MRN على تعلم التمثيل المشترك بكفاءة من المعلومات البصرية واللغوية. الفكرة الرئيسية هي استخدام الضرب العنصري لخرائط البقايا المشتركة مع استغلال التعلم المتبقي للنماذج الانتباهية في الدراسات الحديثة. يتم استكشاف مجموعة متنوعة من النماذج البديلة التي تم تقديمها بواسطة البيانات متعددة الوسائط بناءً على دراستنا. نحقق أفضل النتائج الحالية في مجموعة بيانات Visual QA لكل من المهام ذات الإجابات المفتوحة والمهمات ذات الخيارات المتعددة. بالإضافة إلى ذلك، نقدم طريقة جديدة لتصور تأثير الانتباه للتمثيلات المشتركة لكل كتلة تعلم باستخدام خوارزمية الرجوع الخلفي (back-propagation algorithm)، حتى وإن كانت الخصائص البصرية مشتتة دون معلومات فضائية.