التعلم التفاعلي الكثيف للهوية الشخصية القائمة على الفيديو

تهدف إعادة تحديد الأشخاص القائمة على الفيديو (re-ID) إلى مطابقة نفس الشخص عبر مقاطع فيديو مختلفة. وتعتبر الاستفادة الفعّالة من الميزات الدقيقة متعددة المقاييس، مع بناء التفاعل البنائي بينها، عنصراً محورياً لنجاح هذه المهمة. في هذه الورقة، نقترح إطاراً هجينًا يُسمى التعلم المكثف للتفاعل (Dense Interaction Learning - DenseIL)، الذي يجمع بين المزايا الرئيسية للهياكل القائمة على الشبكات العصبية التلافيفية (CNN) والهياكل القائمة على الانتباه (Attention-based) لمواجهة التحديات المرتبطة بإعادة تحديد الأشخاص القائمة على الفيديو. يحتوي إطار DenseIL على معالج CNN ومحول مكثف للتفاعل (DI decoder). يُعَهَد إلى معالج CNN باستخلاص الميزات المكانية التمييزية بكفاءة، بينما تم تصميم المحول DI لتمثيل التفاعل المكاني-الزماني الداخلي بين الإطارات بشكل مكثف. على عكس الدراسات السابقة، نجعل المحول DI يُجري انتباهاً مكثفاً إلى الميزات المتوسطة الدقيقة الناتجة عن شبكة CNN، مما يؤدي بشكل طبيعي إلى تمثيل مكاني-زماني متعدد المستويات لكل مقطع فيديو. بالإضافة إلى ذلك، نُدخل تضميناً مكانيًا-زمانيًا (Spatio-TEmporal Positional Embedding - STEP-Emb) إلى المحول DI لاستكشاف العلاقات المكانية بين المدخلات المكانية-الزمنية. وقد أظهرت تجاربنا تفوقاً متسقاً وملحوظاً على جميع الطرق الرائدة في مجال إعادة تحديد الأشخاص القائمة على الفيديو في عدة مجموعات بيانات قياسية متعددة.