منذ 2 أشهر
أساس بسيط للإجابة على الأسئلة البصرية
Bolei Zhou; Yuandong Tian; Sainbayar Sukhbaatar; Arthur Szlam; Rob Fergus

الملخص
نقدم نموذجًا أساسيًا بسيطًا للغاية يستند إلى حقيبة الكلمات (bag-of-words) للإجابة على الأسئلة البصرية. يجمع هذا النموذج الأساسي ميزات الكلمات من السؤال وميزات CNN من الصورة للتنبؤ بالإجابة. عند تقييمه على مجموعة بيانات VQA [2] الصعبة، يظهر أداءً مماثلًا لأداء العديد من الطرق الحديثة التي تستخدم الشبكات العصبية المتكررة. لاستكشاف نقاط القوة والضعف للنموذج المدرب، نوفر أيضًا واجهة تفاعلية عبر الويب وكود مصدر مفتوح.