التعلم الدليلي العميق مع المرافقة الضوضائية لاسترجاع عبر الوسائط
تمثّل الاسترجاع عبر الوسائط (Cross-modal retrieval) موضوعًا جذّابًا في المجتمع المتعدد الوسائط. في الآونة الأخيرة، وبهدف تقليل التكلفة العالية لجمع البيانات، أصبح من الممكن جمع أزواج مترافقة (مثل الصور والنصوص) من الإنترنت لتكوين مجموعة بيانات عبر وسائط كبيرة الحجم، مثل مجموعات بيانات Conceptual Captions. ومع ذلك، فإن هذا النهج سيؤدي بالضرورة إلى إدخال ضوضاء (أي أزواج غير متطابقة) إلى بيانات التدريب، ويُعرف هذا النوع من الضوضاء بـ "التوافق الضوضائي" (noisy correspondence). من غير الممكن التنازل عن حقيقة أن هذه الضوضاء تجعل معلومات الإشراف غير موثوقة أو غير مؤكدة، مما يؤدي إلى تدهور كبير في الأداء. علاوةً على ذلك، تركز معظم الطرق الحالية على التدريب على السلبيات الصعبة (hard negatives)، وهي ما يُضاعف من عدم موثوقية الضوضاء. ولحل هذه المشكلات، نقترح إطارًا عامًا لتعلم عميق عبر الوسائط يُدعى DECL (Generalized Deep Evidential Cross-modal Learning)، والذي يدمج منهجية جديدة تُسمى التعلم بالدليل عبر الوسائط (Cross-modal Evidential Learning - CEL) ووظيفة خسارة ديناميكية مقاومة (Robust Dynamic Hinge loss - RDH) مع التعلم الإيجابي والسلبي. تُمكّن CEL من اكتشاف وتَعلُّم عدم اليقين الناتج عن الضوضاء، مما يعزز موثوقية وثبات الاسترجاع عبر الوسائط. وبشكل محدد، يتم أولًا نمذجة وتمثيل الأدلة الثنائية (bidirectional evidence) القائمة على التشابه عبر الوسائط، ثم تعميمها باستخدام التوزيع ديريشليه (Dirichlet distribution)، مما يوفر تقديرًا دقيقًا لمستوى عدم اليقين، ويمنح النموذج مقاومة فعّالة أمام التغيرات الناتجة عن التوافق الضوضائي. ولمعالجة مشكلة التضخيم، تُحسّن RDH بشكل سلس من صعوبة السلبيات المركّزة، مما يعزز من مقاومة النموذج للضوضاء العالية. أُجريت تجارب واسعة على ثلاث مجموعات بيانات معيارية للصورة والنص، وهي Flickr30K وMS-COCO وConceptual Captions، للتحقق من فعالية وكفاءة الطريقة المقترحة. يمكن الوصول إلى الشيفرة المصدرية عبر الرابط: https://github.com/QinYang79/DECL.