منذ 7 أشهر

الملخص

نماذج الإجابة على الأسئلة البصرية (VQA) واجهت صعوبات في عد الأشياء في الصور الطبيعية حتى الآن. لقد حددنا مشكلة أساسية ناجمة عن الانتباه اللين في هذه النماذج كسبب لهذه الصعوبة. لتجاوز هذه المشكلة، نقترح مكونًا من الشبكة العصبية يسمح بالعد الدقيق من اقتراحات الأشياء. تجارب أجريت على مهمة بسيطة أظهرت فعالية هذا المكون، وقد حققنا دقة قياسية في فئة العدد من مجموعة بيانات VQA v2 دون التأثير سلبًا على الفئات الأخرى، بل وحتى تفوق نموذجنا الفردي على نماذج الجمع. وفي مقياس زوجي متوازن صعب، يوفر المكون تحسينًا كبيرًا في العد بنسبة 6.6% فوق خط الأساس القوي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار