HyperAIHyperAI
منذ شهر واحد

الحوار الذاتي العصبي: فهم الصور من خلال التساؤل والإجابة المستمر

Yezhou Yang; Yi Li; Cornelia Fermuller; Yiannis Aloimonos
الحوار الذاتي العصبي: فهم الصور من خلال التساؤل والإجابة المستمر
الملخص

في هذه الورقة، نتناول مشكلة اكتشاف محتويات الصور بشكل مستمر من خلال طرح أسئلة مرتبطة بالصور بشكل نشط والإجابة على هذه الأسئلة لاحقًا. المكونات الرئيسية تشمل وحدة توليد الأسئلة البصرية (VQG) ووحدة الإجابة على الأسئلة البصرية (VQA)، حيث يتم استخدام الشبكات العصبية التكرارية (RNN) والشبكات العصبية المتلافهة (CNN). بناءً على مجموعة بيانات تحتوي على صور وأسئلة وإجاباتها، يتم تدريب كلا الوحدتين في نفس الوقت، مع الفرق أن VQG تستخدم الصور كمدخلات والأسئلة المرتبطة بها كمخرجات، بينما VQA تستخدم الصور والأسئلة كمدخلات والإجابات المرتبطة بها كمخرجات. نقوم بتقييم عملية الحديث الذاتي بشكل ذاتي باستخدام خدمة Amazon Mechanical Turk، مما يظهر فعالية الطريقة المقترحة.