مِشْد ميموري ترانسفورمر للوصف الصوتي للصور

تمثل معمارية الترانسفورمر الحالة المتطورة في مهام نمذجة التسلسل مثل الترجمة الآلية وفهم اللغة. ومع ذلك، لا تزال إمكانات هذه المعمارية في السياقات متعددة الوسائط، مثل وصف الصور، موضع دراسة محدودة إلى حد كبير. وبهدف سد هذا الفجوة، نقدم معمارية M$^2$ — وهي ترانسفورمر مُشَبَّكٌ ذا ذاكرة لوصف الصور. تحسّن هذه البنية كلاً من مرحلتي ترميز الصورة وإنشاء اللغة: فهي تتعلم تمثيلاً متعدد المستويات للعلاقة بين مناطق الصورة، مع دمج معرفة سابقة مُتعلَّمة، وتستخدم اتصالاً على شكل شبكة (Mesh-like) في مرحلة التشفير للاستفادة من الخصائص المنخفضة المستوى والمرتفعة المستوى. من الناحية التجريبية، ندرس أداء معمارية M$^2$ والنموذجات الأخرى ذات الاتصال التام الكامل مقارنةً بالنموذجات التكرارية (Recurrent). عند اختبارها على مجموعة بيانات COCO، تحقق مبادرتنا أفضل أداء مسجل حتى الآن في التكوينات ذات النموذج الواحد والتكوينات المجمعة (Ensemble) على شريحة الاختبار "Karpathy" وعلى خادم الاختبار المباشر. كما نقيّم أداؤها عند وصف كائنات لم تُرَ في مجموعة التدريب. تم إتاحة النماذج المدربة والكود المطلوب لإعادة إنتاج التجارب بشكل عام عبر الرابط التالي: https://github.com/aimagelab/meshed-memory-transformer.