HyperAIHyperAI
منذ 2 أشهر

MUTAN: الاندماج متعدد الوسائط لـ Tucker في الإجابة على الأسئلة البصرية

Hedi Ben-younes; Rémi Cadene; Matthieu Cord; Nicolas Thome
MUTAN: الاندماج متعدد الوسائط لـ Tucker في الإجابة على الأسئلة البصرية
الملخص

تقدم النماذج الثنائية إطارًا جذابًا لخلط ودمج المعلومات في مهام الإجابة على الأسئلة البصرية (VQA). فهي تساعد في تعلم العلاقات المرتفعة المستوى بين معنى السؤال والمفاهيم البصرية في الصورة، ولكنها تعاني من مشكلات بُعدية كبيرة. نقدم في هذا البحث نموذج MUTAN، وهو تحليل متعدد الوضعيات يعتمد على متجهات تاكر (Tucker) لتقدير التفاعلات الثنائية بين التمثيلات البصرية والنصية بكفاءة. بالإضافة إلى إطار تاكر، قمنا بتصميم تحليل مصفوفي ذو رتبة منخفضة لفرض قيود صريحة على رتبة التفاعل. باستخدام MUTAN، نتحكم في تعقيد نظام الدمج مع الحفاظ على علاقات الاندماج القابلة للتفسير بشكل جيد. نوضح كيف أن نموذج MUTAN الخاص بنا يعمم بعض أحدث هياكل VQA، مما يوفر نتائج رائدة في هذا المجال.

MUTAN: الاندماج متعدد الوسائط لـ Tucker في الإجابة على الأسئلة البصرية | أحدث الأوراق البحثية | HyperAI