عوامل التمثيل الزماني المكاني للتعريف بالشخص القائم على الفيديو

على الرغم من التقدم الكبير الذي تم تحقيقه مؤخرًا في إعادة التعرف على الأشخاص بناءً على الفيديو (re-ID)، تظل الأنظمة الرائدة حاليًا تعاني من تحديات شائعة في البيئة الواقعية، مثل التشابه في المظهر بين الأشخاص المختلفين، والانسداد (الإغلاق الجزئي)، والانحراف في الإطارات (frame misalignment). لمعالجة هذه المشكلات، نقترح وحدة حسابية جديدة مرنة تُسمى التحليل التم espa-زمني للتمثيل (Spatio-Temporal Representation Factorization – STRF)، والتي يمكن دمجها مع معظم الهياكل الحالية لشبكات التعلم العميق ذات التماثل الثلاثي الأبعاد (3D Convolutional Neural Networks) المستخدمة في مهام إعادة التعرف على الأشخاص. تكمن الابتكارات الأساسية لـ STRF مقارنة بالعمل السابق في وجود مسارات صريحة لتعلم السمات الزمنية التمييزية والسمات المكانية، حيث يتم تحليل كل مكون بشكل إضافي لالتقاط معلومات متكاملة عن مظهر الشخص وحركته. وبشكل محدد، يتألف التحليل الزمني من فرعين: الأول يركز على السمات الثابتة (مثل لون الملابس) التي لا تتغير كثيرًا عبر الزمن، والثاني يركز على السمات الديناميكية (مثل نمط المشي) التي تتغير بمرور الوقت. كما يتألف التحليل المكاني من فرعين أيضًا، لتعلم سمات المظهر العامة (أجزاء خشنة) والسمات المكانية المحلية (أجزاء دقيقة)، حيث تكون السمات المحلية مفيدة بشكل خاص في الحالات التي تحدث فيها أشكال من الانسداد أو الانحراف المكاني. يؤدي الجمع بين هذين العمليين التحليليين إلى بناء هيكل معياري لوحدة STRF خفيفة من حيث عدد المعاملات (parameter-wise light)، يمكن تركيبها بين أي طبقتين متتاليتين من التحويلات الثلاثية الأبعاد، مما يُنتج إطارًا تعلّميًا من الطرف إلى الطرف (end-to-end). ونُظهر تجريبيًا أن STRF يُحسّن أداء العديد من الهياكل الأساسية الحالية، كما يحقق نتائج جديدة من مستوى الرائد في مجال إعادة التعرف على الأشخاص باستخدام بروتوكولات التقييم القياسية على ثلاث مجموعات بيانات معيارية.