HyperAIHyperAI

Command Palette

Search for a command to run...

IMRAM: التطابق التكراري مع الذاكرة الانتباهية المتكررة للاسترجاع الصوري-النصي عبر الوسائط

Hui Chen Guiguang Ding Xudong Liu Zijia Lin Ji Liu Jungong Han

الملخص

تمكين استرجاع ثنائي الاتجاه للصور والنصوص يُعد أمرًا مهمًا لفهم العلاقة بين الرؤية واللغة. تستخدم الطرق الحالية آلية الانتباه لاستكشاف هذه العلاقة بدقة عالية. ومع ذلك، فإن معظم هذه الطرق تُعامل جميع المعاني بشكل متساوٍ، مما يؤدي إلى محاذاة موحدة، بغض النظر عن تعقيداتها المتنوعة. في الواقع، تختلف المعاني من حيث الطبيعة (أي أنها تتضمن مفاهيم لغوية متنوعة)، ويُعد البشر عادةً يتبعون هيكلًا خفيًا لدمجها في لغات قابلة للفهم. وقد يكون من الصعب على الطرق الحالية التقاط هذه العلاقات المعقدة بشكل مثالي. في هذه الورقة، لمعالجة هذه النقص، نقترح طريقة تُسمى "المطابقة التكرارية مع ذاكرة انتباه متكررة" (IMRAM)، حيث يتم التقاط العلاقات بين الصور والنصوص من خلال عدة مراحل من المطابقة. وبشكل خاص، نُقدّم نموذجًا تكراريًا للتطابق لاستكشاف هذه العلاقات بدقة عالية بشكل تدريجي. كما نستخدم وحدة استخلاص الذاكرة لتحسين معرفة المطابقة من المراحل المبكرة إلى المراحل اللاحقة. أظهرت نتائج التجارب على ثلاث مجموعات بيانات معيارية، وهي Flickr8K وFlickr30K وMS COCO، أن طريقة IMRAM تحقق أداءً متقدمًا على مستوى الحد الأقصى، مما يُثبت فعاليتها بشكل جيد. كما أُجريت تجارب على مجموعة بيانات واقعية لإعلانات تجارية تُسمى \Ads{}، والتي تُؤكد مجدّدًا قابلية تطبيق طريقة لدينا في السياقات العملية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
IMRAM: التطابق التكراري مع الذاكرة الانتباهية المتكررة للاسترجاع الصوري-النصي عبر الوسائط | مستندات | HyperAI