HyperAIHyperAI
منذ 12 أيام

الانتباه المُعزَّز بالذاكرة ذات المفاتيح والقيم التفاعلية لوصف الفقرات الصورية

{Jinwen Tian, Min Yang, Xiang Ao, Chengming Li, Yu Li, Chunpu Xu}
الانتباه المُعزَّز بالذاكرة ذات المفاتيح والقيم التفاعلية لوصف الفقرات الصورية
الملخص

يهدف التوصيف بالفقرة الصورية (IPC) إلى إنتاج فقرة مفصلة لوصف المحتوى البصري للصورة. وقد تم تحقيق تقدم كبير بفضل الشبكات العصبية العميقة، حيث يلعب آلية الانتباه دورًا محوريًا. ومع ذلك، فإن آليات الانتباه التقليدية تميل إلى تجاهل معلومات التوافق السابقة، مما يؤدي غالبًا إلى مشكلات في التكرار في التوصيف أو عدم اكتماله. في هذه الورقة، نقترح نموذجًا مُحسَّنًا يُسمى "الانتباه المُدعَّم بالذاكرة التفاعلية للوصف بالفقرة الصورية" (IMAP)، والذي يُراقب تاريخ الانتباه (معلومة تغطية الكائنات البارزة) مع تحديث سلسلة حالة المُفكِّك (decoder state)، وبالتالي يُقلل من إنتاج وصف صوتي متكرر أو غير مكتمل للصورة. بالإضافة إلى ذلك، نستخدم آلية انتباه مُتكيفة لتحقيق تزامن تكيفي بين مناطق الصورة وكلمات النص التوصيفي، بحيث يمكن تعيين منطقة صورة واحدة إلى عدد غير محدود من كلمات النص، كما يمكن لكلمة نصية أن تنتبه إلى عدد غير محدود من مناطق الصورة. وقد أظهرت تجارب واسعة على مجموعة بيانات معيارية (مثل مجموعة ستانفورد) فعالية نموذجنا IMAP.

الانتباه المُعزَّز بالذاكرة ذات المفاتيح والقيم التفاعلية لوصف الفقرات الصورية | أحدث الأوراق البحثية | HyperAI