منذ 7 أشهر

الملخص

تقدم النماذج الثنائية إطارًا جذابًا لخلط ودمج المعلومات في مهام الإجابة على الأسئلة البصرية (VQA). فهي تساعد في تعلم العلاقات المرتفعة المستوى بين معنى السؤال والمفاهيم البصرية في الصورة، ولكنها تعاني من مشكلات بُعدية كبيرة. نقدم في هذا البحث نموذج MUTAN، وهو تحليل متعدد الوضعيات يعتمد على متجهات تاكر (Tucker) لتقدير التفاعلات الثنائية بين التمثيلات البصرية والنصية بكفاءة. بالإضافة إلى إطار تاكر، قمنا بتصميم تحليل مصفوفي ذو رتبة منخفضة لفرض قيود صريحة على رتبة التفاعل. باستخدام MUTAN، نتحكم في تعقيد نظام الدمج مع الحفاظ على علاقات الاندماج القابلة للتفسير بشكل جيد. نوضح كيف أن نموذج MUTAN الخاص بنا يعمم بعض أحدث هياكل VQA، مما يوفر نتائج رائدة في هذا المجال.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار