HyperAIHyperAI

Command Palette

Search for a command to run...

GraghVQA: الشبكات العصبية الرسومية الموجهة باللغة للإجابة على الأسئلة البصرية القائمة على الرسومات

Weixin Liang Yanhao Jiang Zixuan Liu

الملخص

الصور ليست مجرد مجموعة من الكائنات أو الخصائص — بل تمثل شبكة من العلاقات بين الكائنات المترابطة. ظهر مخطط المشهد (Scene Graph) كوسيلة جديدة لتمثيل رسومي منظم للصور. حيث يُمثل مخطط المشهد الكائنات كعُقد متصلة ببعضها البعض عبر علاقات ثنائية تمثلها الحواف. ولدعم الإجابة على الأسئلة في مخططات المشهد، نقترح إطار عمل يُدعى GraphVQA، وهو إطار يعتمد على الشبكات العصبية الرسومية ويُوجَّه باللغة الطبيعية، ويُحوِّل ويُنفِّذ السؤال بلغة طبيعية من خلال عدة تكرارات من تبادل الرسائل بين العُقد في الرسم البياني. ونستكشف مساحة التصميم الخاصة بإطار GraphVQA، ونناقش التنازلات الناتجة عن الاختيارات التصميمية المختلفة. وتشير تجاربنا على مجموعة بيانات GQA إلى أن GraphVQA يتفوّق على النموذج الأحدث في مجاله بفارق كبير (88.43% مقابل 94.78%).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp