التفاعل الثلاثي المكثف للإجابة على الأسئلة البصرية

في مهام الإجابة على الأسئلة البصرية (VQA)، توجد علاقة قوية بين إجابات الأسئلة ودلالة السؤال والمحتوى البصري. ولذلك، لاستخدام مختار للمعلومات الواردة من الصورة والسؤال والإجابة، نقترح نموذج تفاعل ثلاثي الخطي جديد يتعلم في نفس الوقت العلاقات العالية المستوى بين هذه المدخلات الثلاثة. وبالإضافة إلى ذلك، وللتغلب على تعقيد التفاعلات، نُقدّم تحليلًا متعدد الوسائط قائمًا على التنسور من نوع PARALIND، والذي يُعَدّ طريقة فعّالة لتمثيل التفاعل الثلاثي الخطي بين المدخلات الثلاثة. علاوةً على ذلك، تم تطبيق تقنية تبادل المعرفة (Knowledge Distillation) لأول مرة في مهام VQA المفتوحة الحرة (Free-form Open-ended VQA). ولا تقتصر فائدتها على تقليل التكلفة الحسابية والذاكرة المطلوبة، بل تمتد أيضًا إلى نقل المعرفة من النموذج ثلاثي التفاعل إلى نموذج ثنائي التفاعل. وقد أظهرت التجارب الواسعة على مجموعات بيانات المعيار TDIUC وVQA-2.0 وVisual7W أن النموذج الثلاثي الخطي المدمج المقترح يحقق نتائج متميزة على مستوى الحد الأقصى (state-of-the-art) عند استخدام نموذج واحد على جميع هذه المجموعات الثلاث.