توصيل مدمج قوي للشخص المُعلَّم في إعادة التعرف على الأشخاص في الفيديو غير المُعلَّم في البيئة الطبيعية

يُعالج هذا البحث مشكلات القابلية للتوسع والثبات في تقدير التصنيفات من بيانات غير مُصنفة غير متوازنة في مهام التعرف على الأشخاص القائم على الفيديو غير المُراقب (re-ID). ولتحقيق ذلك، نقترح إطارًا جديدًا يُدعى RACE (Robust AnChor Embedding)، والذي يعتمد على تعلم تمثيل الميزات العميقة لتحسين التعرف على الأشخاص القائم على الفيديو على نطاق واسع دون مراقبة. ضمن هذا الإطار، يتم أولاً اختيار تسلسلات مرجعية تمثل أشخاصًا مختلفين لتكوين رسم بياني مرجعي (Anchor Graph)، والذي يُستخدم أيضًا في تهيئة نموذج الشبكة العصبية التلافيفية (CNN) بهدف الحصول على تمثيلات مميزة للميزات لاستخدامها لاحقًا في تقدير التصنيفات. ولضمان تقدير دقيق للتصنيفات من تسلسلات غير مُصنفة تحتوي على إطارات مشوهة، يُقدَّم تمثيل مرجعي قوي يعتمد على "الغلاف التآلفي المُنظم" (regularized affine hull). كما يُضمن الكفاءة من خلال استخدام تمثيل المراجع المحدودة (kNN anchors embedding) بدلًا من استخدام مجموعة المراجع الكاملة، وذلك ضمن افتراضات التماثل (manifold assumptions). بعد ذلك، يُقترح استراتيجية جديدة لتقدير التصنيفات تعتمد على الحد الأعلى (top-k counts) تتميز بالكفاءة والثبات، وتُستخدم لتوقع تصنيفات تسلسلات الصور غير المُصنفة. وباستخدام التسلسلات المُصنفة المُقدَّرة حديثًا، يُمكِّن الإطار الموحّد للتمثيل المرجعي من تعزيز عملية تعلم الميزات بشكل أكبر. وتُظهر النتائج التجريبية الواسعة على مجموعة بيانات كبيرة أن الطريقة المقترحة تفوق الطرق الحالية في التعرف على الأشخاص القائم على الفيديو غير المُراقب.