HyperAIHyperAI
منذ 11 أيام

GraghVQA: الشبكات العصبية الرسومية الموجهة باللغة للإجابة على الأسئلة البصرية القائمة على الرسومات

Weixin Liang, Yanhao Jiang, Zixuan Liu
GraghVQA: الشبكات العصبية الرسومية الموجهة باللغة للإجابة على الأسئلة البصرية القائمة على الرسومات
الملخص

الصور ليست مجرد مجموعة من الكائنات أو الخصائص — بل تمثل شبكة من العلاقات بين الكائنات المترابطة. ظهر مخطط المشهد (Scene Graph) كوسيلة جديدة لتمثيل رسومي منظم للصور. حيث يُمثل مخطط المشهد الكائنات كعُقد متصلة ببعضها البعض عبر علاقات ثنائية تمثلها الحواف. ولدعم الإجابة على الأسئلة في مخططات المشهد، نقترح إطار عمل يُدعى GraphVQA، وهو إطار يعتمد على الشبكات العصبية الرسومية ويُوجَّه باللغة الطبيعية، ويُحوِّل ويُنفِّذ السؤال بلغة طبيعية من خلال عدة تكرارات من تبادل الرسائل بين العُقد في الرسم البياني. ونستكشف مساحة التصميم الخاصة بإطار GraphVQA، ونناقش التنازلات الناتجة عن الاختيارات التصميمية المختلفة. وتشير تجاربنا على مجموعة بيانات GQA إلى أن GraphVQA يتفوّق على النموذج الأحدث في مجاله بفارق كبير (88.43% مقابل 94.78%).

GraghVQA: الشبكات العصبية الرسومية الموجهة باللغة للإجابة على الأسئلة البصرية القائمة على الرسومات | أحدث الأوراق البحثية | HyperAI