الارتباط الثنائي التكيفي عبر الأنظمة الحسية لاسترجاع الشخص من النص إلى الصورة

إعادة التعرف على الشخص من النص إلى الصورة (ReID) تهدف إلى استرجاع صور لشخص بناءً على وصف نصي معين. التحدي الرئيسي يكمن في تعلم العلاقات بين المعلومات التفصيلية من الوسائط البصرية والنصية. تركز الأعمال الحالية على تعلم فضاء خفي لتضييق الفجوة بين الوسائط، ومن ثم بناء مطابقات محلية بين الوسائطتين. ومع ذلك، فإن هذه الطرق تفترض أن العلاقات بين الصورة والنص والنص والصورة تكون مستقلة عن الوسيلة، مما يؤدي إلى مطابقات غير مثلى. في هذا العمل، نوضح الاختلاف بين مطابقة الصورة للنص ومطابقة النص للصورة ونقترح CADA: المطابقة الثنائية التكيفية العابرة للوسائط (Cross-Modal Adaptive Dual Association) التي تقوم ببناء علاقات تفصيلية ثنائية الاتجاه بشكل دقيق بين الصور والنصوص. يتضمن نهجنا وحدة مطابقة ثنائية اتجاهية قائمة على فك الرموز والتي تمكّن من التفاعل الكامل بين الوسائط البصرية والنصية، مما يسمح بالمطابقات العابرة للوسائط ثنائية الاتجاه والتكيفية. تحديداً، تقترح الورقة آلية مطابقة ثنائية الاتجاه: ربط أجزاء النص بقطع الصورة (ATP) وربط مناطق الصورة بخصائص النص (ARA). نقوم بتكييف نموذج ATP بناءً على حقيقة أن جمع الخواص العابرة للوسائط بناءً على مطابقات خاطئة سيؤدي إلى تشوه الخواص. بالنسبة لنمذجة ARA، بما أن الخصائص هي عادة أولى الإشارات المميزة لشخص ما، فقد اقترحت استكشاف المطابقة على مستوى الخصائص من خلال التنبؤ بالعبارة النصية المخفية باستخدام المنطقة المرتبطة بالصورة. أخيراً، نتعلم المطابقات الثنائية بين النصوص والصور، وتظهر النتائج التجريبية تفوق صيغتنا الثنائية. سيتم توفير الكود بشكل عام.