المحاذاة الموجهة بالتحليل المشترك البشري لتحديد الهوية للأشخاص المُحَجَّبين

إعادة التعرف على الأشخاص المُحَجَّبِين (ReID) تمثل مهمة صعبة نظرًا لزيادة الضوضاء الخلفية وانعدام المعلومات الجزئية للجسم الأمامي. وعلى الرغم من أن الطرق الحالية القائمة على تحليل الإنسان (human parsing) يمكنها معالجة هذه المشكلة من خلال التوافق الدلالي على مستوى البكسل الأدق، إلا أن أداؤها يتأثر بشكل كبير بنموذج تحليل الإنسان. تُقترح الطرق المُدرَّبة بوساطة التصنيف (supervised) تدريب نموذج إضافي لتحليل الإنسان بجانب نموذج ReID باستخدام تسمية أجزاء الجسم عبر مجالات مختلفة، لكنها تعاني من تكاليف تسمية مرتفعة وفجوة مجالية؛ أما الطرق غير المُدرَّبة (unsupervised)، فهي تدمج عملية تحليل إنسان تعتمد على تجميع الميزات داخل نموذج ReID، لكن نقص إشارات التدريب يؤدي إلى نتائج تحليل أقل رضاً. في هذه الورقة، نُقدّم رأيًا بأن المعلومات المُتاحة مسبقًا في مجموعة بيانات تدريب ReID يمكن استخدامها مباشرة كإشارات تدريب لتدريب نموذج تحليل الإنسان دون الحاجة إلى أي تسمية إضافية. من خلال دمج شبكة تحليل مشترك ضعيف التدريب (weakly supervised human co-parsing network) في شبكة ReID، نُقدّم إطارًا جديدًا يستفيد من المعلومات المشتركة بين صور مختلفة لنفس الشخص، ويُسمى بإطار التوجيه بالتحليل المشترك للإنسان (HCGA). وبشكل خاص، يتم تدريب شبكة التحليل المشترك للإنسان بشكل ضعيف باستخدام معايير اتساق ثلاثية، تشمل: الدلالة الشاملة، الفضاء المحلي، والخلفية. وباستخدام المعلومات الدلالية والسمات العميقة الناتجة من شبكة ReID للشخص، يتم تغذية هذه المعلومات إلى وحدة التوجيه المُوجَّهة، مما يسمح باستخلاص السمات الخاصة بالجسم الأمامي وأجزاء الجسم، وبالتالي تحقيق إعادة تعرف فعّالة في حالات التغطية. أظهرت نتائج التجارب على مجموعتي بيانات مُحَجَّبَتين ومجموعتي بيانات شاملتين تفوق أسلوبنا. وبخاصة على مجموعة بيانات Occluded-DukeMTMC، حقق الأسلوب دقة 70.2% في التصنيف الأول (Rank-1) و57.5% في متوسط الدقة (mAP).