HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه المُعزَّز بالذاكرة ذات المفاتيح والقيم التفاعلية لوصف الفقرات الصورية

Jinwen Tian Min Yang Xiang Ao Chengming Li Yu Li Chunpu Xu

الملخص

يهدف التوصيف بالفقرة الصورية (IPC) إلى إنتاج فقرة مفصلة لوصف المحتوى البصري للصورة. وقد تم تحقيق تقدم كبير بفضل الشبكات العصبية العميقة، حيث يلعب آلية الانتباه دورًا محوريًا. ومع ذلك، فإن آليات الانتباه التقليدية تميل إلى تجاهل معلومات التوافق السابقة، مما يؤدي غالبًا إلى مشكلات في التكرار في التوصيف أو عدم اكتماله. في هذه الورقة، نقترح نموذجًا مُحسَّنًا يُسمى "الانتباه المُدعَّم بالذاكرة التفاعلية للوصف بالفقرة الصورية" (IMAP)، والذي يُراقب تاريخ الانتباه (معلومة تغطية الكائنات البارزة) مع تحديث سلسلة حالة المُفكِّك (decoder state)، وبالتالي يُقلل من إنتاج وصف صوتي متكرر أو غير مكتمل للصورة. بالإضافة إلى ذلك، نستخدم آلية انتباه مُتكيفة لتحقيق تزامن تكيفي بين مناطق الصورة وكلمات النص التوصيفي، بحيث يمكن تعيين منطقة صورة واحدة إلى عدد غير محدود من كلمات النص، كما يمكن لكلمة نصية أن تنتبه إلى عدد غير محدود من مناطق الصورة. وقد أظهرت تجارب واسعة على مجموعة بيانات معيارية (مثل مجموعة ستانفورد) فعالية نموذجنا IMAP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp