طريقة غير مراقبة عالية الدقة لتحديد الأشخاص مجددًا باستخدام معلومات مساعدة تم استخراجها من المجموعات البيانات

تُعتمد طرق إعادة تحديد الشخص المُراقبة (supervised person re-identification) بشكل كبير على تسميات تدريب عالية الجودة عبر الكاميرات المختلفة، مما يشكل عائقًا كبيرًا أمام تطبيق نماذج إعادة التعرف في التطبيقات الواقعية. بينما يمكن للطرق غير المُراقبة (unsupervised person re-ID) تقليل تكلفة التسمية البياناتية، إلا أن أداؤها ما زال بعيدًا عن الأداء المُحقَّق من الطرق المُراقبة. في هذا البحث، نستغل بالكامل المعلومات المساعدة المستخرجة من المجموعات البياناتية لتعلم الميزات متعددة الأوضاع، بما في ذلك معلومات الكاميرات، والزمنية، والمكانيّة. وبتحليل انحياز الأسلوب بين الكاميرات، وخصائص مسارات حركة الأشخاص، ومواقع الشبكة المكانية للكاميرات، نصمم ثلاث وحدات: قيد التداخل الزمني (Time-Overlapping Constraint - TOC)، وتشابه مكاني زماني (Spatio-Temporal Similarity - STS)، وغرامة الكاميرا نفسها (Same-Camera Penalty - SCP)، بهدف استغلال هذه المعلومات المساعدة. وتساهم المعلومات المساعدة في تحسين أداء النموذج ودقة الاستنتاج من خلال إنشاء قيود ارتباط أو دمجها مع الميزات البصرية. بالإضافة إلى ذلك، نقترح ثلاث تقنيات تدريب فعّالة: دالة خسارة التسجيل المُحدود التخفيف (Restricted Label Smoothing Cross Entropy Loss - RLSCE)، ودالة خسارة الثلاثي المتكيف بالوزن (Weight Adaptive Triplet Loss - WATL)، وعدد تدريب ديناميكي (Dynamic Training Iterations - DTI). تحقق هذه التقنيات متوسط دقة التصنيف (mAP) بنسبة 72.4% و81.1% على مجموعتي MARS وDukeMTMC-VideoReID على التوالي. وبالإضافة إلى وحدات استغلال المعلومات المساعدة، تصل أداء النموذج إلى mAP قدره 89.9% على مجموعة DukeMTMC، حيث ساهمت كل من TOC وSTS وSCP بشكل ملحوظ في تحسين الأداء. وتتفوق الطريقة المقترحة على معظم الطرق غير المُراقبة الحالية، وتنقص الفجوة بين الطرق غير المُراقبة والطرق المُراقبة في إعادة التعرف على الأشخاص. يمكن الوصول إلى الشفرة المصدرية للبحث من خلال الرابط التالي: https://github.com/tenghehan/AuxUSLReID.