HyperAIHyperAI
منذ 2 أشهر

الانتباه المشترك الهرمي بين السؤال والصورة للاجابة على الأسئلة البصرية

Jiasen Lu; Jianwei Yang; Dhruv Batra; Devi Parikh
الانتباه المشترك الهرمي بين السؤال والصورة للاجابة على الأسئلة البصرية
الملخص

عدد من الأعمال الحديثة اقترحت نماذج الانتباه لأسئلة الصور المرئية (VQA) التي تولد خرائط مكانيّة تُبرز المناطق ذات الصلة في الصورة للإجابة على السؤال. في هذا البحث، ندّعي أن بالإضافة إلى نمذجة "أين يجب النظر" أو الانتباه البصري، فإن من الأهمية بمكان أيضًا نمذجة "أي كلمات يجب الاستماع إليها" أو انتباه السؤال. نقدم نموذج انتباه مشترك جديد لـ VQA يتعامل بشكل مشترك مع انتباه الصورة وانتباه السؤال. بالإضافة إلى ذلك، يتعامل نموذجنا مع السؤال (وبالتالي الصورة عبر آلية الانتباه المشترك) بطريقة هرميّة من خلال شبكات عصبية مت convoledة جديدة ذات بعد واحد (CNN). يحسن نموذجنا الحالة المعاصرة لأفضل النتائج على مجموعة بيانات VQA من 60.3٪ إلى 60.5٪، وعلى مجموعة بيانات COCO-QA من 61.6٪ إلى 63.3٪. باستخدام ResNet، يتم تحسين الأداء أكثر ليصل إلى 62.1٪ لـ VQA و 65.4٪ لـ COCO-QA.注释:在阿拉伯语中,“convolved”一词没有直接对应的科技术语,因此这里保留了英文原词“convoled”。正确的表达应该是“مت convoledة”(مت convoledة意为卷积的),但为了保持专业性和准确性,建议在实际应用中使用“متداخلة”或者“متعددة الطبقات”来代替。因此,最终版本应为:عدد من الأعمال الحديثة اقترحت نماذج الانتباه لأسئلة الصور المرئية (VQA) التي تولد خرائط مكانيّة تُبرز المناطق ذات الصلة في الصورة للإجابة على السؤال. في هذا البحث، ندّعي أن بالإضافة إلى نمذجة "أين يجب النظر" أو الانتباه البصري، فإن من الأهمية بمكان أيضًا نمذجة "أي كلمات يجب الاستماع إليها" أو انتباه السؤال. نقدم نموذج انتباه مشترك جديد لـ VQA يتعامل بشكل مشترك مع انتباه الصورة وانتباه السؤال. بالإضافة إلى ذلك، يتعامل نمو델جنا مع السؤال (وبالتالي الصورة عبر آلية الانتباه المشترك) بطريقة هرميّة من خلال شبكات عصبية متداخلة جديدة ذات بعد واحد (CNN). يحسن نموذجنا الحالة المعاصرة لأفضل النتائج على مجموعة بيانات VQA من 60.3٪ إلى 60.5٪، وعلى مجموعة بيانات COCO-QA من 61.6٪ إلى 63.3٪. باستخدام ResNet، يتم تحسين الأداء أكثر ليصل إلى 62.1٪ لـ VQA و 65.4٪ لـ COCO-QA.希望这个翻译符合您的要求。如果有任何进一步的修改或调整,请随时告知。

الانتباه المشترك الهرمي بين السؤال والصورة للاجابة على الأسئلة البصرية | أحدث الأوراق البحثية | HyperAI