التعلم النشط متعدد الوسائط مع التوافق الذاتي المكمل

في الآونة الأخيرة، جذب مطابقة الصور والنصوص المزيد والمزيد من الاهتمام من الأوساط الأكاديمية والصناعية، وهو ما يشكل أساسًا لفهم التوافق الضمني بين الوسائط البصرية والنصية. ومع ذلك، فإن معظم الأساليب الحالية تفترض ضمنيًا أن أزواج التدريب متناسقة بشكل جيد بينما تتجاهل الضوضاء الشائعة في التسميات، المعروفة أيضًا بالتوافق الضوضائي (Noisy Correspondence - NC)، مما يؤدي حتماً إلى انخفاض الأداء. رغم محاولات بعض الأساليب معالجة هذا النوع من الضوضاء، إلا أنها لا تزال تواجه مشكلتين صعبتين: الإفراط في الحفظ/التكييف الزائد وتصحيح غير موثوق للتوافق الضوضائي (NC)، خاصة تحت مستويات عالية من الضوضاء.لحل هاتين المشكلتين، نقترح إطارًا عامًا للم aprendizaje complementario robusto متعدد الوسائط (Cross-modal Robust Complementary Learning - CRCL)، والذي يستفيد من خسارة تعلم فعالة جديدة ومكملة (Active Complementary Loss - ACL) ومن تصحيح ذاتي فعال للتوافق (Self-refining Correspondence Correction - SCC) لتحسين متانة الأساليب الحالية. بصفة خاصة، تستغل ACL الخسائر النشطة والمكملة لتعلم لتقليل خطر تقديم إشراف خاطئ، مما يؤدي إلى متانة نظرية وتجريبية ضد التوافق الضوضائي (NC). أما SCC فيستخدم عمليات ذاتية متعددة للتكرار مع تصحيح الزخم لتوسيع المجال المستقبل للتصحيحات، مما يساعد على تخفيف تراكم الأخطاء ويحقق تصحيحات دقيقة ومستقرة. قمنا بإجراء العديد من التجارب الموسعة على ثلاثة مقاييس لمطابقة الصور والنصوص، وهي Flickr30K وMS-COCO وCC152K، للتحقق من المتانة الفائقة لـ CRCL ضد التوافق الضوضائي المصنع والواقعي.