الاسترجاع عبر الوسائط مع التوافق الضوضائي من خلال تحسين الاتساق واستكشافه
ينجذب نجاح الطرق الحالية لاسترجاع البيانات عبر الوسائط (CMR) بشكل كبير إلى افتراض أن التقابل المُعلَّم بين الوسائط خالٍ من الأخطاء. ومع ذلك، في الواقع، فإن تقابل بعض الأزواج يصبح بالضرورة ملوثًا أثناء جمع البيانات أو التصنيف، مما يؤدي إلى ما يُعرف بمشكلة التقابل الضوضائي (NC). ولتخفيف تأثير هذه المشكلة، نقترح طريقة جديدة تُسمى "تحسين وتعزيز الاتساق" (CREAM)، من خلال الكشف عن الفرق بين التقابل والاتساق، واستغلال هذا الفرق. بشكل محدد، يتطابق التقابل مع الاتساق فقط في الأزواج الصحيحة الموجبة (true positive) والصحيحة السالبة (true negative)، بينما يختلفان في الأزواج الخاطئة الموجبة (false positive) والخاطئة السالبة (false negative). استنادًا إلى هذه الملاحظة، تستخدم CREAM نموذج تعلم تعاوني للكشف عن التقابل في الأزواج الموجبة وتصحيحه، بالإضافة إلى استخدام منهجية استخراج الأزواج السلبية لاستكشاف واستغلال الاتساق. وبفضل استراتيجية تحسين وتعزيز الاتساق في CREAM، يمكن منع التعلم الزائد (overfitting) على الأزواج الخاطئة الموجبة، وتمكين الاستفادة من الاتساق المُخفي في الأزواج الخاطئة السالبة، مما يؤدي إلى منهج قوي لاسترجاع البيانات عبر الوسائط. وقد أثبتت التجارب الواسعة فعالية طريقتنا على ثلاث معايير صور-نص، تشمل Flickr30K وMS-COCO وConceptual Captions. علاوةً على ذلك، قمنا بتطبيق طريقتنا على مهمة تطابق الرسوم البيانية (graph matching)، وأظهرت النتائج قدرة طريقتنا على التحمل أمام مشكلة التقابل الضوضائي الدقيقة. يمكن الوصول إلى الشيفرة المصدرية عبر الرابط: https://github.com/XLearning-SCU/2024-TIP-CREAM.