التعلم التكيفي لتمثيل الرسوم البيانية لتحديد هوية الأشخاص في مقاطع الفيديو

شهدت السنوات الأخيرة تقدماً ملحوظاً في تطبيق نماذج التعلم العميق في مسألة إعادة التعرف على الأشخاص في الفيديو (Re-ID). ويُعد العامل الرئيسي في إعادة التعرف على الأشخاص في الفيديو هو بناء تمثيلات مميزة وقوية للسمات الفيديوية بشكل فعّال، وذلك لمواجهة الظروف المعقدة المتعددة. تستخدم النماذج القائمة على الأجزاء الانتباه المكاني والزمني لاستخراج السمات المحلية الممثلة. ومع أن الطرق السابقة تتجاهل العلاقات بين الأجزاء، فإننا نقترح هنا نموذجاً مبتكرًا لتعلم تمثيلات رسمية تكيفية (Adaptive Graph Representation Learning) لتحسين إعادة التعرف على الأشخاص في الفيديو، مما يسمح بالتفاعلات السياقية بين السمات الإقليمية ذات الصلة. وبشكل محدد، نستفيد من ارتباطات محاذاة الوضع (pose alignment connection) وارتباطات التماثل في السمات (feature affinity connection) لبناء رسم بياني موجه مُعدّل يراعي البنية (structure-aware adjacency graph)، والذي يُمثّل العلاقات الذاتية بين العقد في الرسم البياني. ونُطبّق عملية انتشار السمات على هذا الرسم البياني لتحسين السمات الإقليمية بشكل تكراري، مع أخذ معلومات العقد المجاورة بعين الاعتبار عند تمثيل سمات الأجزاء. ولتحقيق تمثيلات مكثفة ومميزة، نقترح كذلك منظومة ت régularization مبتكرة تعتمد على الدقة الزمنية (temporal resolution-aware regularization)، والتي تفرض الاتساق بين مختلف الدقة الزمنية للهوية نفسها. وقد أجرينا تقييمات واسعة على أربع معايير معيارية، وهي iLIDS-VID وPRID2011 وMARS وDukeMTMC-VideoReID، وأظهرت النتائج التجريبية أداءً تنافسياً، مما يدل على فعالية الطريقة المقترحة. يمكن الاطلاع على الكود من خلال الرابط التالي: https://github.com/weleen/AGRL.pytorch.