HyperAIHyperAI
منذ 2 أشهر

أساس بسيط للإجابة على الأسئلة البصرية

Bolei Zhou; Yuandong Tian; Sainbayar Sukhbaatar; Arthur Szlam; Rob Fergus
أساس بسيط للإجابة على الأسئلة البصرية
الملخص

نقدم نموذجًا أساسيًا بسيطًا للغاية يستند إلى حقيبة الكلمات (bag-of-words) للإجابة على الأسئلة البصرية. يجمع هذا النموذج الأساسي ميزات الكلمات من السؤال وميزات CNN من الصورة للتنبؤ بالإجابة. عند تقييمه على مجموعة بيانات VQA [2] الصعبة، يظهر أداءً مماثلًا لأداء العديد من الطرق الحديثة التي تستخدم الشبكات العصبية المتكررة. لاستكشاف نقاط القوة والضعف للنموذج المدرب، نوفر أيضًا واجهة تفاعلية عبر الويب وكود مصدر مفتوح.

أساس بسيط للإجابة على الأسئلة البصرية | أحدث الأوراق البحثية | HyperAI