HyperAIHyperAI
منذ 17 أيام

مُنظِّمات قابلة للتوصيل والتشغيل لتطابق الصورة والنص

Haiwen Diao, Ying Zhang, Wei Liu, Xiang Ruan, Huchuan Lu
مُنظِّمات قابلة للتوصيل والتشغيل لتطابق الصورة والنص
الملخص

استغلال التوافق الدقيق والمحاذاة البصرية-الدلالية أظهر إمكانات كبيرة في مطابقة الصور والنصوص. بشكل عام، تستخدم الطرق الحديثة وحدة انتباه عابر النمط أولاً لالتقاط التفاعلات الخفية بين المناطق والكلمات، ثم تُدمج جميع المحاذاة للحصول على التشابه النهائي. ومع ذلك، تعتمد معظم هذه الطرق على استراتيجيات ترابط أو تجميع بمرة واحدة، مع استخدام هياكل معقدة أو معلومات إضافية، مع إغفال قدرة التغذية الراجعة للشبكة على التنظيم. في هذه الورقة، نطور اثنين من المنظمين البسيطين ولكن الفعّالين بشكل كبير، اللذين يُشَكِّلان بشكل فعّال الرسائل الناتجة لتمكين التخصيص التلقائي ودمج تمثيلات عابر النمط. بشكل محدد، نقترح (أ) منظم التوافق التكراري (RCR)، الذي يُسهّل وحدة الانتباه العابر النمط تدريجيًا من خلال عوامل انتباه مُعدّلة تلقائيًا لالتقاط توافق أكثر مرونة، و(ب) منظم التجميع التكراري (RAR)، الذي يُعدّل أوزان التجميع بشكل متكرر لزيادة التركيز تدريجيًا على المحاذاة المهمة وتخفيف تأثير تلك غير المهمة. بالإضافة إلى ذلك، من المثير للاهتمام أن RCR وRAR يمكن استخدامهما كوحدات جاهزة للتركيب: يمكن دمجهما في العديد من الأطر القائمة على التفاعل بين النمطين لتحقيق فوائد كبيرة، كما أن تعاونهما يؤدي إلى تحسينات إضافية. وقد أكدت التجارب الواسعة على مجموعتي بيانات MSCOCO وFlickr30K أن هذه الطرق تُحقق مكسبًا ملحوظًا ومستقرًا في مؤشر R@1 على عدة نماذج، مما يؤكد الفعالية العامة وقدرة التعميم للطرق المقترحة. يمكن الوصول إلى الكود والنماذج المُدرّبة مسبقًا من خلال: https://github.com/Paranioar/RCAR.

مُنظِّمات قابلة للتوصيل والتشغيل لتطابق الصورة والنص | أحدث الأوراق البحثية | HyperAI