شبكات الرسم البياني ثنائية الخط للإجابة على الأسئلة البصرية

يعد هذا البحث مراجعةً لشبكات الانتباه ثنائية الخطية في مهمة الإجابة على الأسئلة البصرية من وجهة نظر الرسوم البيانية. تقوم الشبكات التقليدية للانتباه ثنائي الخطية ببناء خريطة انتباه ثنائية الخطية لاستخراج التمثيل المشترك لكلمات السؤال والكائنات في الصورة، ولكنها تفتقر إلى استكشاف العلاقة الكاملة بين الكلمات للتفكير المعقد. بالمقابل، قمنا بتطوير شبكات الرسم البياني ثنائية الخطية لنمذجة سياق التضمينات المشتركة لكلمات وكائنات الصورة. تم دراسة نوعين من الرسوم البيانية، وهما رسم الصورة البياني (Image-Graph) ورسم السؤال البياني (Question-Graph). ينقل رسم الصورة البياني خصائص الكائنات المكتشفة إلى الكلمات الاستفهامية المرتبطة بها، مما يتيح للمعالجات النهائية أن تحتوي على معلومات دلالية وحقائق. أما رسم السؤال البياني فيتبادل المعلومات بين هذه المعالجات النهائية من رسم الصورة البياني لتعزيز العلاقة الضمنية ولكن المهمة بين الكائنات. يعمل هذان النوعان من الرسوم البيانية معًا بشكل تعاوني، وبالتالي يمكن لنموذجنا النهائي نمذجة العلاقة والارتباط بين الكائنات، مما يؤدي إلى تحقيق التفكير متعدد الخطوات. أظهرت نتائج التجارب على مجموعة بيانات التحقق VQA v2.0 قدرة طريقتنا على التعامل مع الأسئلة المعقدة. وفي مجموعة الاختبار القياسية (test-std)، حقق أفضل نموذج فردي لدينا أداءً يتفوق على الحالة الراهنة للتقنية (state-of-the-art)، حيث زاد الدقة العامة إلى 72.41%.