HyperAIHyperAI
منذ 2 أشهر

التمثيلات ذات الهيكل الرسومي لأسئلة الإجابة البصرية

Damien Teney; Lingqiao Liu; Anton van den Hengel
التمثيلات ذات الهيكل الرسومي لأسئلة الإجابة البصرية
الملخص

يقترح هذا البحث تحسين الإجابة على الأسئلة البصرية (VQA) باستخدام تمثيلات منظمة لمحتويات المشهد وللأسئلة. يعد التحدي الرئيسي في VQA هو الحاجة إلى الاستدلال المشترك على المجالين البصري والنصي. تعاني النهج السائدة القائمة على CNN/LSTM في VQA من حدود فرضها التمثيلات المتجهية الموحدة التي تتجاهل بشكل كبير الهيكل في المشهد وفي صيغة السؤال. لا يمكن لـ متجهات ميزات CNN أن تلتقط بفعالية حالات بسيطة مثل وجود نسخ متعددة من الأجسام، وتعالج LSTM الأسئلة كسلسلة من الكلمات، مما لا يعكس التعقيد الحقيقي لهيكل اللغة. بدلاً من ذلك، نقترح بناء رسوم بيانية فوق أشياء المشهد وكلمات السؤال، ونصف شبكة عصبية عميقة تستغل الهيكل في هذه التمثيلات. هذا يظهر فوائد كبيرة مقارنة مع المعالجة المتسلسلة للـ LSTM. يتم إثبات الفعالية الشاملة لنهجنا من خلال تحسينات كبيرة على الحالة الراهنة، حيث ارتفعت الدقة من 71.2٪ إلى 74.4٪ في دقة الاختبار الموضوعي لـ "المشاهد المجردة"، ومن 34.7٪ إلى 39.1٪ في دقة الإجابات على أزواج "المشاهد المتوازنة" (Balanced Scenes)، أي الصور ذات الاختلافات الدقيقة والإجابات المعاكسة نعم/لا لنفس السؤال.

التمثيلات ذات الهيكل الرسومي لأسئلة الإجابة البصرية | أحدث الأوراق البحثية | HyperAI