الانتباه المنسق المُحاذي المتبادل للانتباه المتقاطع لتحديد هوية الأشخاص مع تغيير الملابس

تم دراسة إعادة تحديد الشخص (Re-ID) على نطاق واسع وحقق تقدماً ملحوظاً. ومع ذلك، تعتمد الطرق التقليدية لإعادة تحديد الشخص بشكل رئيسي على مظهر اللون المرتبط بالملابس، وهو ما يُعد غير موثوق في السياقات الواقعية عندما يتغير الناس ملابسهم. وقد لاقت دراسة إعادة تحديد الشخص في حالات تغيير الملابس اهتماماً متزايداً مؤخراً، لكنها تُعد أكثر تحدياً في تعلم ميزات هوية شخصية تمييزية، نظراً لحدوث تباين أكبر داخل الفئة (intra-class) وتباين أصغر بين الفئات (inter-class) في فضاء الميزات الصورية نتيجة لتغير الملابس. إلى جانب الميزات المرئية، يمكن أن تُشفر بشكل ضمني في الصور ميزات مرتبطة بالهوية معروفة (مثل: أشكال الجسم). في هذه الورقة، نقوم أولاً بتصميم وحدة جديدة تُسمى تضمين معاني الشكل (Shape Semantics Embedding - SSE)، لتضمين معلومات معنوية حول شكل الجسم، وهي إحدى المؤشرات الأساسية لتمييز المشاة عند تغير ملابسهم. ولتحسين تكامل ميزات الصورة، نقترح كذلك إطاراً جديداً يُسمى التفاعل المتبادل المتماثل بالانتباه المزدوج (Co-attention Aligned Mutual Cross-attention - CAMC). على عكس استراتيجيات الدمج القائمة على الانتباه السابقة، يُجري هذا الإطار أولاً محاذاة الميزات من عدة أنماط، ثم يُجري تفاعلاً فعالاً ونقل معرفة مُتَّسِقة مع الهوية ولكن غير مرتبطة بالملابس بين فضاء الصورة وفضاء شكل الجسم، مما يؤدي إلى تمثيل ميزات أكثر قوة. إلى حد معرفتنا، تُعد هذه الدراسة الأولى التي تستخدم مُحول (Transformer) لمعالجة التفاعل متعدد الأنماط في سياق إعادة تحديد الشخص عند تغيير الملابس. تُظهر التجارب الواسعة فعالية الطريقة المقترحة، وتبين الأداء المتفوق الذي تم تحقيقه على عدة معايير معيارية لإعادة تحديد الشخص في حالات تغيير الملابس. سيتم نشر الشيفرة المصدرية على الرابط: https://github.com/QizaoWang/CAMC-CCReID.