
تكتسب الأبحاث المتعلقة بمهمة إعادة التعرف (ReID) زخمًا متزايدًا في مجال الرؤية الحاسوبية بفضل تعدد حالات الاستخدام وطبيعتها التي تتيح التعلم بدون عينات (zero-shot learning). تقدم هذه الورقة نموذجًا فائق الدقة (fine-grained) لإعادة التعرف يُسمى FGReID، وهو من بين أول النماذج التي توحد مهام إعادة التعرف على الصور والفيديوهات مع الحفاظ على عدد محدود جدًا من المعاملات التدريبية. يستفيد نموذج FGReID من التدريب المسبق القائم على الفيديو والانتباه المكاني للسمات لتحسين الأداء في كلا المهمتين: إعادة التعرف على الفيديو وعلى الصور. وقد حقق FGReID أفضل الأداء الحالي (SOTA) على معايير إعادة التعرف على الأشخاص في الفيديو MARS، iLIDS-VID، وPRID-2011. كما أن إزالة عملية التجميع الزمني (temporal pooling) أدى إلى توليد نموذج لإعادة التعرف على الصور تفوق الأداء الحالي على معايير إعادة التعرف على الأشخاص في الصور CUHK01 وMarket1501. كما حقق FGReID أداءً قريبًا من الأفضل في مجموعة بيانات إعادة التعرف على المركبات VeRi، مما يُظهر قدرته على التعميم. بالإضافة إلى ذلك، أجرينا دراسة تحليلية (ablation study) لتحليل العناصر الأساسية المؤثرة في أداء النموذج في مهام إعادة التعرف. وأخيرًا، نناقش التحديات الأخلاقية المرتبطة بمهمات إعادة التعرف، بما في ذلك خطر الاستخدام غير المشروع. تم إتاحة الكود الخاص بهذه الدراسة للجمهور عبر الرابط التالي: https://github.com/ppriyank/Fine-grained-ReIdentification.