منذ 2 أشهر
MUTAN: الاندماج متعدد الوسائط لـ Tucker في الإجابة على الأسئلة البصرية
Hedi Ben-younes; Rémi Cadene; Matthieu Cord; Nicolas Thome

الملخص
تقدم النماذج الثنائية إطارًا جذابًا لخلط ودمج المعلومات في مهام الإجابة على الأسئلة البصرية (VQA). فهي تساعد في تعلم العلاقات المرتفعة المستوى بين معنى السؤال والمفاهيم البصرية في الصورة، ولكنها تعاني من مشكلات بُعدية كبيرة. نقدم في هذا البحث نموذج MUTAN، وهو تحليل متعدد الوضعيات يعتمد على متجهات تاكر (Tucker) لتقدير التفاعلات الثنائية بين التمثيلات البصرية والنصية بكفاءة. بالإضافة إلى إطار تاكر، قمنا بتصميم تحليل مصفوفي ذو رتبة منخفضة لفرض قيود صريحة على رتبة التفاعل. باستخدام MUTAN، نتحكم في تعقيد نظام الدمج مع الحفاظ على علاقات الاندماج القابلة للتفسير بشكل جيد. نوضح كيف أن نموذج MUTAN الخاص بنا يعمم بعض أحدث هياكل VQA، مما يوفر نتائج رائدة في هذا المجال.