الانتباه المُعزَّز بالذاكرة ذات المفاتيح والقيم التفاعلية لوصف الفقرات الصورية

يهدف التوصيف بالفقرة الصورية (IPC) إلى إنتاج فقرة مفصلة لوصف المحتوى البصري للصورة. وقد تم تحقيق تقدم كبير بفضل الشبكات العصبية العميقة، حيث يلعب آلية الانتباه دورًا محوريًا. ومع ذلك، فإن آليات الانتباه التقليدية تميل إلى تجاهل معلومات التوافق السابقة، مما يؤدي غالبًا إلى مشكلات في التكرار في التوصيف أو عدم اكتماله. في هذه الورقة، نقترح نموذجًا مُحسَّنًا يُسمى "الانتباه المُدعَّم بالذاكرة التفاعلية للوصف بالفقرة الصورية" (IMAP)، والذي يُراقب تاريخ الانتباه (معلومة تغطية الكائنات البارزة) مع تحديث سلسلة حالة المُفكِّك (decoder state)، وبالتالي يُقلل من إنتاج وصف صوتي متكرر أو غير مكتمل للصورة. بالإضافة إلى ذلك، نستخدم آلية انتباه مُتكيفة لتحقيق تزامن تكيفي بين مناطق الصورة وكلمات النص التوصيفي، بحيث يمكن تعيين منطقة صورة واحدة إلى عدد غير محدود من كلمات النص، كما يمكن لكلمة نصية أن تنتبه إلى عدد غير محدود من مناطق الصورة. وقد أظهرت تجارب واسعة على مجموعة بيانات معيارية (مثل مجموعة ستانفورد) فعالية نموذجنا IMAP.