آلية انتباه فعّالة للحوار البصري قادرة على معالجة جميع التفاعلات بين المدخلات المتعددة

أصبح من الشواغل الأساسية في الدراسات الحديثة المتعلقة بمهمات الرؤية واللغة تصميم آلية انتباه فعّالة للتعامل مع التفاعلات بين الوسائط المزدوجة. وقد تم مؤخرًا توسيع نموذج الترانسפורمر وتطبيقه على عدد من المهام الثنائية، مما أدى إلى نتائج واعدة. وبالنسبة لل диالوج البصري، أصبح من الضروري أخذ التفاعلات بين ثلاثة مدخلات أو أكثر بعين الاعتبار، أي الصورة، والسؤال، وسجل الحوار، أو حتى المكونات الفردية للحوار. في هذه الورقة، نقدّم معمارية عصبية تُسمى "الترانسفورمر الخفيف للعديد من المدخلات" (LTMI) التي تُعد فعّالة في التعامل مع جميع التفاعلات بين هذه المدخلات المتعددة في سياق الحوار البصري. تمتلك هذه المعمارية هيكلًا مكوّنًا من كتل مشابه لنموذج الترانسفورمر، وتستخدم نفس تصميم حساب الانتباه، لكنها تمتلك عددًا صغيرًا جدًا من المعلمات، مع الحفاظ على قدرة تمثيلية كافية للغرض. وبافتراض إعداد قياسي للحوار البصري، فإن طبقة مبنية على كتلة الانتباه المقترحة تحتوي على أقل من عشرة بالمائة من عدد المعلمات مقارنةً بطبقة الترانسفورمر التقليدية المماثلة. وتوحي النتائج التجريبية على مجموعات بيانات VisDial بفعالية النهج المقترح، حيث أظهرت تحسينات في أفضل نتيجة NDCG على مجموعة بيانات VisDial v1.0 من 57.59 إلى 60.92 باستخدام نموذج واحد، ومن 64.47 إلى 66.53 باستخدام نماذج متعددة (ensemble)، بل وحتى إلى 74.88 مع تحسين إضافي (fine-tuning). يتوفر كود التنفيذ الخاص بنا على الرابط التالي: https://github.com/davidnvq/visdial.