ReCon: تحسين تمييز التطابق الحقيقي من خلال الاتساق العلاقة لتعلم موثوق للتطابقات الضوضائية

هل يمكننا تحديد التوافقيات الحقيقية بدقة من مجموعات بيانات متعددة الوسائط تحتوي على أزواج بيانات غير متطابقة؟ تعتمد الطرق الحالية بشكل رئيسي على مطابقة التشابه بين تمثيلات الكيانات عبر الوسائط المختلفة، مما قد يؤدي إلى إهمال الاتساق في العلاقات داخل كل وسيلة، وهو أمر بالغ الأهمية لتمييز التوافقيات الحقيقية عن الخاطئة. يؤدي هذا الإهمال غالبًا إلى خطر تصنيف الأزواج السلبية على أنها إيجابية، ما يسبب تدهورًا غير متوقع في الأداء. لمعالجة هذه المشكلة، نقترح إطارًا عامًا لتعلم الاتساق في العلاقات يُسمى ReCon، والذي يهدف إلى تمييز التوافقيات الحقيقية بدقة ضمن البيانات متعددة الوسائط، وبالتالي تقليل التأثير السلبي الناتج عن التوافقيات الخاطئة. بشكل خاص، يستخدم ReCon تقنية جديدة لتعلم الاتساق في العلاقات، لضمان التوافق المزدوج في: (1) الاتساق في العلاقات بين الوسائط المختلفة (الاتساق عبر الوسائط)، و(2) الاتساق في العلاقات داخل كل وسيلة (الاتساق الداخلي للوسيطة). بفضل هذه القيود الثنائية على العلاقات، يعزز ReCon بشكل كبير كفاءته في التمييز بين التوافقيات الحقيقية، وبالتالي يُمكّنه من فلترة الأزواج غير المتطابقة بشكل موثوق، مما يقلل من مخاطر التدريب الخاطئ. أُجريت تجارب واسعة على ثلاث مجموعات معيارية شهيرة، تشمل Flickr30K وMS-COCO وConceptual Captions، لإثبات كفاءة وتفوّق ReCon مقارنة بالأساليب الحالية المتميزة (SOTAs). يمكن الوصول إلى الكود من خلال: https://github.com/qxzha/ReCon.