HyperAIHyperAI

Command Palette

Search for a command to run...

التمثيلات ذات الهيكل الرسومي لأسئلة الإجابة البصرية

Damien Teney Lingqiao Liu Anton van den Hengel

الملخص

يقترح هذا البحث تحسين الإجابة على الأسئلة البصرية (VQA) باستخدام تمثيلات منظمة لمحتويات المشهد وللأسئلة. يعد التحدي الرئيسي في VQA هو الحاجة إلى الاستدلال المشترك على المجالين البصري والنصي. تعاني النهج السائدة القائمة على CNN/LSTM في VQA من حدود فرضها التمثيلات المتجهية الموحدة التي تتجاهل بشكل كبير الهيكل في المشهد وفي صيغة السؤال. لا يمكن لـ متجهات ميزات CNN أن تلتقط بفعالية حالات بسيطة مثل وجود نسخ متعددة من الأجسام، وتعالج LSTM الأسئلة كسلسلة من الكلمات، مما لا يعكس التعقيد الحقيقي لهيكل اللغة. بدلاً من ذلك، نقترح بناء رسوم بيانية فوق أشياء المشهد وكلمات السؤال، ونصف شبكة عصبية عميقة تستغل الهيكل في هذه التمثيلات. هذا يظهر فوائد كبيرة مقارنة مع المعالجة المتسلسلة للـ LSTM. يتم إثبات الفعالية الشاملة لنهجنا من خلال تحسينات كبيرة على الحالة الراهنة، حيث ارتفعت الدقة من 71.2٪ إلى 74.4٪ في دقة الاختبار الموضوعي لـ "المشاهد المجردة"، ومن 34.7٪ إلى 39.1٪ في دقة الإجابات على أزواج "المشاهد المتوازنة" (Balanced Scenes)، أي الصور ذات الاختلافات الدقيقة والإجابات المعاكسة نعم/لا لنفس السؤال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التمثيلات ذات الهيكل الرسومي لأسئلة الإجابة البصرية | مستندات | HyperAI