الانتباه البصري-النصي المركزي للإجابة على الأسئلة في ميمكس
أُجريت تطورات حديثة في مجال اللغة والرؤية باستخدام الشبكات العصبية، وقد تم تطبيقها بنجاح على مهام الإجابة على الأسئلة البصرية المحدودة بالصورة الواحدة. ومع ذلك، لمعالجة مشكلات الإجابة على الأسئلة الواقعية ضمن مجموعات متعددة الوسائط، مثل المجموعات الشخصية للصور الفوتوغرافية، يتعين علينا النظر إلى المجموعات الكاملة التي تتضمن تسلسلاً من الصور. تقدم هذه الورقة مهمة جديدة تُعرف بـ "MemexQA متعددة الوسائط": بالنظر إلى تسلسل من الصور المستمدة من مستخدم، يكون الهدف هو الإجابة تلقائيًا على الأسئلة التي تساعد المستخدمين على استرجاع ذكرياتهم حول حدث تم التقاطه في هذه الصور. إلى جانب الإجابة النصية، يتم أيضًا توفير عدد قليل من الصور التأكيدية (grounding photos) لتبرير الإجابة، حيث تُعد هذه الصور ضرورية لأنها تساعد المستخدمين على التحقق السريع من صحة الإجابة. ولحل هذه المهمة، نقدم في هذه الورقة: 1) مجموعة بيانات MemexQA، وهي أول مجموعة بيانات متعددة الوسائط للإجابة على الأسئلة مفتوحة المصدر، تتضمن مجموعات حقيقية من الصور الشخصية؛ و2) شبكة قابلة للتدريب من الطرف إلى الطرف، تعتمد على عملية هرمية لتحديد ديناميكيًا نوع الوسائط والزمن المناسب للتركيز عليه في البيانات التسلسلية للإجابة على السؤال. أظهرت النتائج التجريبية على مجموعة بيانات MemexQA أن نموذجنا يتفوق على النماذج الأساسية القوية، ويُنتج صورًا تأكيدية ذات صلة عالية في هذه المهمة الصعبة.