3SHNet: تعزيز استرجاع الصورة-الجملة من خلال التمييز الذاتي البصري والمعنوي-المساحي

في هذه الورقة، نقترح شبكة بصرية ذاتية-تسلط بصرية-معنوية-مكانية مبتكرة (تُعرف بـ 3SHNet) لاسترجاع الصور والجملة بدقة عالية وكفاءة عالية وعامة عالية. تسلط 3SHNet الضوء على التمييز البارز للأجسام البارزة ومواقعها المكانية داخل الوسيلة البصرية، مما يسمح بدمج التفاعلات البصرية المعنوية-المكانية مع الحفاظ على الاستقلال بين الوسيلتين. ويُعد هذا الدمج فعّالاً في دمج مناطق الكائنات مع التخطيطات المعنوية والموضعية المُستخلصة من التجزئة، لتعزيز التمثيل البصري. كما تضمن الاستقلال بين الوسائل الكفاءة والقدرة على التعميم. علاوةً على ذلك، تستخدم 3SHNet المعلومات السياقية البصرية المُنظمة من التجزئة لتوجيه الاسترجاع المحلي (المبني على المناطق) أو العالمي (المبني على الشبكة)، مما يحقق استرجاعًا دقيقًا على مستويات مختلطة. وقد أثبتت التجارب الواسعة المُنفَّذة على معايير MS-COCO وFlickr30K الأداء المتميز، وكفاءة الاستدلال، والقدرة على التعميم للـ 3SHNet مقارنة بالأساليب الحديثة المتطورة. وبشكل خاص، على مجموعة اختبار MS-COCO 5K الأكبر، حققنا تحسينات بنسبة 16.3% و24.8% و18.3% على التوالي في مقياس rSum، مقارنة بالأساليب الرائدة التي تستخدم تمثيلات صور مختلفة، مع الحفاظ على كفاءة استرجاع مثالية. علاوةً على ذلك، تحسن أداؤنا في التعميم عبر المجموعات البيانات بنسبة 18.6%. ويمكن الوصول إلى البيانات والكود من خلال الرابط: https://github.com/XuriGe1995/3SHNet.