HyperAIHyperAI
منذ 2 أشهر

تعلم عد الأشياء في الصور الطبيعية للإجابة على الأسئلة البصرية

Yan Zhang; Jonathon Hare; Adam Prügel-Bennett
تعلم عد الأشياء في الصور الطبيعية للإجابة على الأسئلة البصرية
الملخص

نماذج الإجابة على الأسئلة البصرية (VQA) واجهت صعوبات في عد الأشياء في الصور الطبيعية حتى الآن. لقد حددنا مشكلة أساسية ناجمة عن الانتباه اللين في هذه النماذج كسبب لهذه الصعوبة. لتجاوز هذه المشكلة، نقترح مكونًا من الشبكة العصبية يسمح بالعد الدقيق من اقتراحات الأشياء. تجارب أجريت على مهمة بسيطة أظهرت فعالية هذا المكون، وقد حققنا دقة قياسية في فئة العدد من مجموعة بيانات VQA v2 دون التأثير سلبًا على الفئات الأخرى، بل وحتى تفوق نموذجنا الفردي على نماذج الجمع. وفي مقياس زوجي متوازن صعب، يوفر المكون تحسينًا كبيرًا في العد بنسبة 6.6% فوق خط الأساس القوي.