الاسترجاع عبر الوسائط مع أزواج غير متطابقة جزئيًا
في هذه الورقة، ندرس مشكلةً صعبة ولكنها غير مُتَنَقَّلة بشكل واسع في استرجاع البيانات عبر الوسائط المتعددة، وهي ما يُعرف بـ "أزواج غير متطابقة جزئيًا" (PMPs). وبشكل محدد، في السياقات الواقعية، يتم جمع كميات هائلة من البيانات متعددة الوسائط (مثل مجموعة بيانات Conceptual Captions) من الإنترنت، وبالتالي يصبح من المستحيل تجنب تقييم بعض الأزواج غير المرتبطة عبر الوسائط على أنها متطابقة. من غير المجدي أن يؤدي هذا المشكل إلى تدهور كبير في أداء استرجاع البيانات عبر الوسائط. ولحل هذه المشكلة، نُطوّر إطارًا نظريًا موحدًا لتعلم متعدد الوسائط مقاومًا (RCL) يعتمد على مُقدِّر غير مُتحيِّز لمخاطر استرجاع البيانات عبر الوسائط، بهدف تمكين أساليب استرجاع البيانات عبر الوسائط من مقاومة تأثيرات الأزواج غير المتطابقة جزئيًا. وبتفصيل، يستخدم إطار RCL نموذجًا جديدًا للتعلم المُتَناقض المُكْمِل (complementary contrastive learning) لمعالجة التحديين التاليين: مشكلة التعلم الزائد (overfitting) ومشكلة التعلم غير الكافي (underfitting). من ناحية، يعتمد نهجنا فقط على المعلومات السلبية، التي تكون أقل عرضة للخطأ مقارنة بالمعلومات الإيجابية، وبالتالي يتجنب مشكلة التعلم الزائد الناتجة عن الأزواج غير المتطابقة جزئيًا. ومع ذلك، قد تؤدي هذه الاستراتيجيات المقاومة إلى مشكلة التعلم غير الكافي، مما يجعل تدريب النماذج أكثر صعوبة. من ناحية أخرى، لمعالجة مشكلة التعلم غير الكافي الناتجة عن التدريب الضعيف، نقترح استغلال جميع الأزواج السلبية المتاحة لتعزيز المحتوى التوجيهي الموجود في المعلومات السلبية. علاوة على ذلك، لتحسين الأداء بشكل أكبر، نقترح تقليل الحدود العليا لمخاطر الخطأ، بهدف إيلاء اهتمام أكبر للعينات الصعبة. لتأكيد فعالية وقوة الأسلوب المقترح، نُجري تجارب شاملة على خمسة مجموعات بيانات معيارية شائعة الاستخدام، ونقارنها مع تسع طرق حديثة جدًا فيما يتعلق بمهمات استرجاع الصور-النص والفيديوهات-النص. يمكن الوصول إلى الشفرة المصدرية من خلال الرابط التالي: https://github.com/penghu-cs/RCL.