منذ شهر واحد
استكشاف النماذج والبيانات لأسئلة الإجابة على الصور
Mengye Ren; Ryan Kiros; Richard Zemel

الملخص
يهدف هذا البحث إلى معالجة مشكلة الإجابة على الأسئلة القائمة على الصور (Image-based QA) باستخدام نماذج وقواعد بيانات جديدة. في عملنا، نقترح استخدام الشبكات العصبية والتمثيلات الدلالية البصرية، دون مراحل وسيطة مثل اكتشاف الأشياء وتقسيم الصور، للتنبؤ بالإجابات على أسئلة بسيطة حول الصور. أداء نموذجنا أفضل بنسبة 1.8 مرة من النتائج الوحيدة المنشورة على قاعدة بيانات صور موجودة للإجابة على الأسئلة. كما قمنا بتقديم خوارزمية توليد أسئلة تحول وصف الصور، وهو ما يتوفر بشكل واسع، إلى شكل أسئلة وإجابات. استخدمنا هذه الخوارزمية لإنتاج قاعدة بيانات أكبر بمقدار عُشر، مع إجابات أكثر توزيعًا بالتساوي. كما تم تقديم مجموعة من النتائج الأساسية على هذه القاعدة البيانات الجديدة.