Command Palette
Search for a command to run...
IMRAM: التطابق التكراري مع الذاكرة الانتباهية المتكررة للاسترجاع الصوري-النصي عبر الوسائط
IMRAM: التطابق التكراري مع الذاكرة الانتباهية المتكررة للاسترجاع الصوري-النصي عبر الوسائط
Hui Chen Guiguang Ding Xudong Liu Zijia Lin Ji Liu Jungong Han
الملخص
تمكين استرجاع ثنائي الاتجاه للصور والنصوص يُعد أمرًا مهمًا لفهم العلاقة بين الرؤية واللغة. تستخدم الطرق الحالية آلية الانتباه لاستكشاف هذه العلاقة بدقة عالية. ومع ذلك، فإن معظم هذه الطرق تُعامل جميع المعاني بشكل متساوٍ، مما يؤدي إلى محاذاة موحدة، بغض النظر عن تعقيداتها المتنوعة. في الواقع، تختلف المعاني من حيث الطبيعة (أي أنها تتضمن مفاهيم لغوية متنوعة)، ويُعد البشر عادةً يتبعون هيكلًا خفيًا لدمجها في لغات قابلة للفهم. وقد يكون من الصعب على الطرق الحالية التقاط هذه العلاقات المعقدة بشكل مثالي. في هذه الورقة، لمعالجة هذه النقص، نقترح طريقة تُسمى "المطابقة التكرارية مع ذاكرة انتباه متكررة" (IMRAM)، حيث يتم التقاط العلاقات بين الصور والنصوص من خلال عدة مراحل من المطابقة. وبشكل خاص، نُقدّم نموذجًا تكراريًا للتطابق لاستكشاف هذه العلاقات بدقة عالية بشكل تدريجي. كما نستخدم وحدة استخلاص الذاكرة لتحسين معرفة المطابقة من المراحل المبكرة إلى المراحل اللاحقة. أظهرت نتائج التجارب على ثلاث مجموعات بيانات معيارية، وهي Flickr8K وFlickr30K وMS COCO، أن طريقة IMRAM تحقق أداءً متقدمًا على مستوى الحد الأقصى، مما يُثبت فعاليتها بشكل جيد. كما أُجريت تجارب على مجموعة بيانات واقعية لإعلانات تجارية تُسمى \Ads{}، والتي تُؤكد مجدّدًا قابلية تطبيق طريقة لدينا في السياقات العملية.