HyperAIHyperAI

Command Palette

Search for a command to run...

MUTAN: الاندماج متعدد الوسائط لـ Tucker في الإجابة على الأسئلة البصرية

Hedi Ben-younes Rémi Cadene Matthieu Cord Nicolas Thome

الملخص

تقدم النماذج الثنائية إطارًا جذابًا لخلط ودمج المعلومات في مهام الإجابة على الأسئلة البصرية (VQA). فهي تساعد في تعلم العلاقات المرتفعة المستوى بين معنى السؤال والمفاهيم البصرية في الصورة، ولكنها تعاني من مشكلات بُعدية كبيرة. نقدم في هذا البحث نموذج MUTAN، وهو تحليل متعدد الوضعيات يعتمد على متجهات تاكر (Tucker) لتقدير التفاعلات الثنائية بين التمثيلات البصرية والنصية بكفاءة. بالإضافة إلى إطار تاكر، قمنا بتصميم تحليل مصفوفي ذو رتبة منخفضة لفرض قيود صريحة على رتبة التفاعل. باستخدام MUTAN، نتحكم في تعقيد نظام الدمج مع الحفاظ على علاقات الاندماج القابلة للتفسير بشكل جيد. نوضح كيف أن نموذج MUTAN الخاص بنا يعمم بعض أحدث هياكل VQA، مما يوفر نتائج رائدة في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp