شبكات الانتباه ثنائية الخطية

شبكات الانتباه في التعلم متعدد الوسائط تقدم طريقة فعالة لاستخدام المعلومات البصرية المعطاة بشكل منتقى. ومع ذلك، فإن التكلفة الحسابية لتعلم توزيعات الانتباه لكل زوج من قنوات المدخل المتعددة للوسائط باهظة الثمن بشكل مفرط. لحل هذه المشكلة، يتم بناء انتباه مشترك (co-attention) لتوزيعين منفصلين للانتباه لكل وسيلة، مع تجاهل التفاعل بين مدخلات الوسائط المتعددة. في هذا البحث، نقترح شبكات الانتباه الثنائية (BAN) التي تجد توزيعات انتباه ثنائية لاستخدام المعلومات البصرية واللغوية المعطاة بسلاسة. تعتبر BAN التفاعلات الثنائية بين مجموعتين من قنوات المدخل، بينما يقوم التقريب الثنائي ذو الرتبة المنخفضة (low-rank bilinear pooling) باستخراج التمثيلات المشتركة لكل زوج من القنوات. بالإضافة إلى ذلك، نقترح نوعًا متغيرًا من شبكات البقايا متعددة الوسائط (multimodal residual networks) لاستغلال خرائط الانتباه الثمانية الخاصة بـ BAN بكفاءة. نقيم نموذجنا كميًا وكيفيًا على مجموعة بيانات الإجابة على الأسئلة البصرية (VQA 2.0) ومجموعة بيانات Flickr30k Entities، مما يظهر أن BAN يتفوق بشكل كبير على الأساليب السابقة ويحقق أفضل النتائج الحالية في كلتا المجموعتين.