إعادة التفكير في إعادة تعريف الشخص من منظور الإسقاط على النماذج الأولية

إعادة تعريف الشخص (Re-ID) كمهمة استرجاع، حققت تطورًا هائلًا خلال العقد الماضي. تتبع الطرق الحالية الرائدة إطار عمل مماثل لاستخراج الخصائص من الصور المدخلة ومن ثم تصنيفها باستخدام تصنيف. ومع ذلك، نظرًا لعدم وجود تداخل في الهوية بين مجموعات التدريب والاختبار، غالبًا ما يتم التخلص من التصنيف أثناء الاستدلال. يتم استخدام الخصائص المستخرجة فقط لاسترجاع الشخص عبر مقاييس المسافة. في هذا البحث، نعيد النظر في دور التصنيف في إعادة تعريف الشخص، وندعو إلى وجهة نظر جديدة تتمثل في اعتبار التصنيف كإسقاط للخصائص الصورية على النماذج الفئوية. هذه النماذج هي بالضبط المعلمات المُتعلمة للتقييم. بناءً على هذا، نصف هوية الصور المدخلة بوصفها تشابهات مع جميع النماذج، والتي يتم استخدامها بعد ذلك كخصائص أكثر تمييزًا لأداء إعادة تعريف الشخص. وبناءً عليه، نقترح قاعدة جديدة تُسمى ProNet، التي تحتفظ بشكل مبتكر بوظيفة التقييم في مرحلة الاستدلال. لتسهيل تعلم النماذج الفئوية، يتم تطبيق كل من خسارة الثلاثي وخسارة تصنيف الهوية على الخصائص التي تخضع لإسقاط التقييم. يتم تقديم إصدار محسن من ProNet++ من خلال دمج تصاميم متعددة الدقة بشكل أكبر. أظهرت التجارب على أربع مقاييس أن المقترح لدينا ProNet بسيط ولكنه فعال، ويتفوق بشكل كبير على القواعد السابقة. كما حقق ProNet++ نتائج تنافسية أو حتى أفضل من المنافسين المستندين إلى المتحولات (transformers).