التعلم من التوافقيات الضوضائية باستخدام التقسيم الثلاثي للتطابق عبر الوسائط
بسبب تكاليف التسمية العالية، يصبح من المستحيل تجنب إدخال نسبة معينة من الت corresponder المزعجة إلى مجموعات بيانات الصور والنصوص، مما يؤدي إلى ضعف مقاومة النموذج في المطابقة عبر الوسائط المتعددة. وعلى الرغم من أن الطرق الحديثة تقوم بتقسيم المجموعات إلى مجموعات متطابقة نظيفة ومتزنة من الأزواج لتحقيق نتائج واعدة، إلا أنها ما زالت تعاني من تأثير التراكم الزائد (over-fitting) للشبكات العصبية العميقة على الأزواج المزعجة. وبشكل خاص، تُصنف أزواج موجبة مشابهة ذات تقابل ناقص في المضمون المعجمي خطأً ضمن مجموعة الأزواج المزعجة دون اختيار دقيق، مما يسبب أضرارًا جسيمة للتعلم المقاوم. وفي الوقت نفسه، تؤدي أزواج سالبة مشابهة ذات تقابل جزئي في المضمون المعجمي إلى علاقة مسافة غامضة في عملية التعلم بالفضاء المشترك، مما يضر أيضًا بثبات الأداء. ولحل مشكلة التقسيم المجرد للمجموعة، نقترح نموذج "مُصحح التقسيم الثلاثي للتوافق" (Correspondence Tri-Partition Rectifier - CTPR)، الذي يقوم بتقسيم مجموعة التدريب إلى ثلاث مجموعات: أزواج نظيفة، وأزواج صعبة، وأزواج مزعجة، وذلك استنادًا إلى تأثير التذكر (memorization effect) للشبكات العصبية والاختلاف في التنبؤ (prediction inconsistency). ثم نُعدّل تسميات التوافق لكل مجموعة لتعكس التقابل الحقيقي في المضمون بين أزواج الصور والنصوص. وتُعاد صياغة الفروق بين التسميات المُصححة للعناصر الأساسية (anchors) والعناصر السلبية الصعبة (hard negatives) كحد مرن تكيفي في خسارة المثلث المحسّنة، لتحقيق تدريب موثوق عبر نموذج التدريس المشترك (co-teaching). ولإثبات فعالية وموثوقية طريقة العمل، أجرينا تجارب باستخدام مطابقة الصور والنصوص ومطابقة الفيديو والنصوص كحالتين توضيحيتين. وأظهرت التجارب الواسعة على مجموعات بيانات Flickr30K، MS-COCO، MSR-VTT، وLSMDC أن طريقة العمل نجحت في تقسيم أزواج الصور والنصوص وفقًا لتقاربها المعجمي، وحسّنت الأداء في ظل تدريب البيانات المزروعة بالضوضاء.