كامب: تمرير رسالة متكيفة عبر الوسائط لاسترجاع النص والصورة

استرجاع الصور والنصوص عبر النماذج يُعد مهمة صعبة في مجال اللغة والرؤية الحاسوبية. في معظم النهج السابقة، تم دمج الصور والجمل بشكل منفصل في فضاء تكاملي للتمثيل، ثم قُورنت تشابهاتها. ومع ذلك، نادرًا ما استكشفت هذه النهج التفاعل بين الصور والجمل قبل حساب التشابه في الفضاء التكاملي. بشكل مفهوم، عند مطابقة الصور بالجمل، يُركّز البشر بشكل متسلسل على مناطق في الصور وكلمات في الجمل، ويعملون على اختيار المعلومات الأكثر بروزًا مع مراعاة التفاعل بين كلا النموذجين. في هذه الورقة، نقترح نموذج التبادل التكيفي للمعلومات عبر النماذج (CAMP)، الذي يتحكم بشكل تكيفي في تدفق المعلومات أثناء عملية تبادل الرسائل عبر النماذج. يأخذ نهجنا بعين الاعتبار التفاعلات التكاملية الشاملة والدقيقة بين النماذج، كما يتعامل بشكل مناسب مع الأزواج السلبية والمعلومات غير ذات صلة من خلال مخطط تبادل تكيفي. علاوةً على ذلك، بدلًا من الاعتماد على النهج التقليدية المبنية على التمثيل المشترك لمطابقة النصوص والصور، نستنتج درجة المطابقة بناءً على الميزات المدمجة، ونُقدّم خسارة ثنائية التضمين للعناصر السلبية الأصعب (hardest negative binary cross-entropy loss) لتدريب النموذج. وقد أظهرت النتائج على مجموعتي بيانات COCO وFlickr30k تفوقًا كبيرًا على أحدث الطرق، مما يثبت فعالية النهج المقترح.