HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم عد الأشياء في الصور الطبيعية للإجابة على الأسئلة البصرية

Yan Zhang; Jonathon Hare; Adam Prügel-Bennett

الملخص

نماذج الإجابة على الأسئلة البصرية (VQA) واجهت صعوبات في عد الأشياء في الصور الطبيعية حتى الآن. لقد حددنا مشكلة أساسية ناجمة عن الانتباه اللين في هذه النماذج كسبب لهذه الصعوبة. لتجاوز هذه المشكلة، نقترح مكونًا من الشبكة العصبية يسمح بالعد الدقيق من اقتراحات الأشياء. تجارب أجريت على مهمة بسيطة أظهرت فعالية هذا المكون، وقد حققنا دقة قياسية في فئة العدد من مجموعة بيانات VQA v2 دون التأثير سلبًا على الفئات الأخرى، بل وحتى تفوق نموذجنا الفردي على نماذج الجمع. وفي مقياس زوجي متوازن صعب، يوفر المكون تحسينًا كبيرًا في العد بنسبة 6.6% فوق خط الأساس القوي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تعلم عد الأشياء في الصور الطبيعية للإجابة على الأسئلة البصرية | مستندات | HyperAI