HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات الرسم البياني ثنائية الخط للإجابة على الأسئلة البصرية

Dalu Guo Chang Xu Dacheng Tao

الملخص

يعد هذا البحث مراجعةً لشبكات الانتباه ثنائية الخطية في مهمة الإجابة على الأسئلة البصرية من وجهة نظر الرسوم البيانية. تقوم الشبكات التقليدية للانتباه ثنائي الخطية ببناء خريطة انتباه ثنائية الخطية لاستخراج التمثيل المشترك لكلمات السؤال والكائنات في الصورة، ولكنها تفتقر إلى استكشاف العلاقة الكاملة بين الكلمات للتفكير المعقد. بالمقابل، قمنا بتطوير شبكات الرسم البياني ثنائية الخطية لنمذجة سياق التضمينات المشتركة لكلمات وكائنات الصورة. تم دراسة نوعين من الرسوم البيانية، وهما رسم الصورة البياني (Image-Graph) ورسم السؤال البياني (Question-Graph). ينقل رسم الصورة البياني خصائص الكائنات المكتشفة إلى الكلمات الاستفهامية المرتبطة بها، مما يتيح للمعالجات النهائية أن تحتوي على معلومات دلالية وحقائق. أما رسم السؤال البياني فيتبادل المعلومات بين هذه المعالجات النهائية من رسم الصورة البياني لتعزيز العلاقة الضمنية ولكن المهمة بين الكائنات. يعمل هذان النوعان من الرسوم البيانية معًا بشكل تعاوني، وبالتالي يمكن لنموذجنا النهائي نمذجة العلاقة والارتباط بين الكائنات، مما يؤدي إلى تحقيق التفكير متعدد الخطوات. أظهرت نتائج التجارب على مجموعة بيانات التحقق VQA v2.0 قدرة طريقتنا على التعامل مع الأسئلة المعقدة. وفي مجموعة الاختبار القياسية (test-std)، حقق أفضل نموذج فردي لدينا أداءً يتفوق على الحالة الراهنة للتقنية (state-of-the-art)، حيث زاد الدقة العامة إلى 72.41%.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكات الرسم البياني ثنائية الخط للإجابة على الأسئلة البصرية | مستندات | HyperAI