تعلم التوافق الضوضائي لإعادة تعريف الشخص من النص إلى الصورة

التعرف على الشخص من النص إلى الصورة (TIReID) هو موضوع مثير للاهتمام في مجتمع الوسائط المتعددة، يهدف إلى استرجاع الشخص المستهدف بناءً على استعلام نصي. رغم اقتراح العديد من طرق TIReID وتحقيقها لأداء واعد، فإن هذه الطرق تفترض ضمنياً أن أزواج الصور والنصوص التدريبية محاذاة بشكل صحيح، وهو ما لا يحدث دائماً في السيناريوهات الحقيقية. في الممارسة العملية، توجد أزواج صورة-نص تحتوي على علاقات غير كافية أو حتى خاطئة، المعروفة أيضاً بالمراسلات الضوضائية (Noisy Correspondence - NC)، بسبب جودة الصور المنخفضة وأخطاء التسمية. لحل هذه المشكلة، نقترح طريقة جديدة للغرس الثنائي القوي (Robust Dual Embedding - RDE) التي يمكنها تعلم العلاقات البصرية-الدلالية بقوة حتى مع وجود NC. تحديداً، تتكون RDE من مكونين رئيسيين:1) وحدة التقسيم بالتراضي الثقة (Confident Consensus Division - CCD) التي تستفيد من القرارات الثنائية الدقيقة للوحدات الثنائية الغرس للحصول على مجموعة توافقية من بيانات التدريب النظيفة، مما يمكّن النموذج من تعلم العلاقات البصرية-الدلالية الصحيحة والموثوقة.2) خسارة التناسق الثلاثي (Triplet Alignment Loss - TAL) التي تخفف من الخسارة التقليدية للترتيب الثلاثي مع العينات السلبية الأصعب إلى حد أعلى لوغاريتمي-أساسي لكل العينات السلبية، مما يمنع انهيار النموذج تحت NC ويمكنه أيضاً التركيز على العينات السلبية الأصعب لتحقيق أداء واعد.أجرينا تجارب واسعة على ثلاثة مقاييس عامة هي CUHK-PEDES و ICFG-PEDES و RSTPReID لتقييم أداء وقوة طريقة RDE. حققت طريقتنا أفضل النتائج الحالية سواء بوجود أو عدم وجود مراسلات ضوضائية مصنعة على جميع الثلاثة قواعد بيانات. الرمز البرمجي متاح على الرابط https://github.com/QinYang79/RDE.