منذ 11 أيام
GraghVQA: الشبكات العصبية الرسومية الموجهة باللغة للإجابة على الأسئلة البصرية القائمة على الرسومات
Weixin Liang, Yanhao Jiang, Zixuan Liu

الملخص
الصور ليست مجرد مجموعة من الكائنات أو الخصائص — بل تمثل شبكة من العلاقات بين الكائنات المترابطة. ظهر مخطط المشهد (Scene Graph) كوسيلة جديدة لتمثيل رسومي منظم للصور. حيث يُمثل مخطط المشهد الكائنات كعُقد متصلة ببعضها البعض عبر علاقات ثنائية تمثلها الحواف. ولدعم الإجابة على الأسئلة في مخططات المشهد، نقترح إطار عمل يُدعى GraphVQA، وهو إطار يعتمد على الشبكات العصبية الرسومية ويُوجَّه باللغة الطبيعية، ويُحوِّل ويُنفِّذ السؤال بلغة طبيعية من خلال عدة تكرارات من تبادل الرسائل بين العُقد في الرسم البياني. ونستكشف مساحة التصميم الخاصة بإطار GraphVQA، ونناقش التنازلات الناتجة عن الاختيارات التصميمية المختلفة. وتشير تجاربنا على مجموعة بيانات GQA إلى أن GraphVQA يتفوّق على النموذج الأحدث في مجاله بفارق كبير (88.43% مقابل 94.78%).