شبكات الانتباه الخطي X-Linear لوصف الصور

أظهر التقدم الأخير في التعرف البصري الدقيق وإجابة الأسئلة البصرية استخدام التجميع التربيعي (Bilinear Pooling)، الذي نجح في نمذجة التفاعلات من الدرجة الثانية عبر المدخلات متعددة الوسائط. ومع ذلك، لم تُقدَّم حتى الآن أدلة تدعم بناء هذه التفاعلات بالتوازي مع آلية الانتباه في إنشاء العناوين التوضيحية للصور. في هذه الورقة، نُقدِّم كتلة انتباه موحدة تُسمى "كتلة الانتباه الخطي المُوسَّع" (X-Linear Attention Block)، التي تُوظِّف بشكل كامل التجميع التربيعي لاستغلال المعلومات البصرية بشكل انتقائي أو إجراء استدلال متعدد الوسائط. من الناحية الفنية، تُستخدَم كتلة الانتباه الخطي المُوسَّع في نفس الوقت توزيعات الانتباه التربيعية المكانية والمحورية (channel-wise) لالتقاط التفاعلات من الدرجة الثانية بين الميزات الأحادية أو متعددة الوسائط المدخلة. كما يمكن نمذجة تفاعلات ميزات من الدرجة الأعلى وحتى من الدرجة اللانهائية بسهولة من خلال تراكب عدة كتل من الانتباه الخطي المُوسَّع، مع تزويدها بوحدة التنشيط الأسية (ELU) بطريقة لا تتطلب معلمات إضافية. علاوةً على ذلك، نقدِّم شبكات الانتباه الخطي المُوسَّع (X-Linear Attention Networks)، والمعروفة بـ X-LAN، التي تُدمج بشكل جديد كتلة الانتباه الخطي المُوسَّع في مُشفِّر الصور ومحرّك الجملة في نموذج إنشاء العناوين التوضيحية للصور، بهدف الاستفادة من التفاعلات ذات الدرجة العالية داخل الوسائط وبينها. أظهرت التجارب على معيار COCO أن نموذج X-LAN يحقق أفضل أداء منشور حتى الآن في معيار CIDEr، بقيمة 132.0% على مجموعة اختبار Karpathy من COCO. وفي حال تزويد نموذج Transformer بكتل الانتباه الخطي المُوسَّع، يرتفع معيار CIDEr إلى 132.8%. تم إتاحة الشفرة المصدرية على الرابط: \url{https://github.com/Panda-Peter/image-captioning}.