الهوية الشخصية القائمة على الفيديو باستخدام شبكات الذاكرة المكانية والزمنية

تهدف إعادة التعرف على الأشخاص بناءً على الفيديو (reID) إلى استرداد مقاطع فيديو لأفراد يحملون نفس الهوية مثل الشخص المطلوب عبر كاميرات متعددة. تُعد العوامل المُشتتة المكانية والزمنية في مقاطع الفيديو الخاصة بالأشخاص، مثل الفوضى الخلفية والانسدادات الجزئية عبر الإطارات، هذه المهمة أكثر صعوبة مقارنة بإعادة التعرف على الأشخاص بناءً على الصور. نلاحظ أن العوامل المُشتتة المكانية تظهر بشكل ثابت في مواقع محددة، بينما تُظهر العوامل المُشتتة الزمنية أنماطًا متعددة، مثل حدوث الانسدادات الجزئية في الإطارات الأولى، حيث توفر هذه الأنماط معلومات مفيدة لتنبؤ الإطارات التي يجب التركيز عليها (أي الانتباه الزمني). استنادًا إلى ذلك، نقدم شبكة ذاكرة مكانية وزمنية جديدة (STMN). تخزن الذاكرة المكانية الميزات الخاصة بالعوامل المُشتتة المكانية التي تظهر بشكل متكرر عبر إطارات الفيديو، بينما تُخزن الذاكرة الزمنية الانتباهات التي تم تحسينها لتناسب الأنماط الزمنية الشائعة في مقاطع فيديو الأشخاص. نستفيد من الذاكرة المكانية والذاكرة الزمنية لتحسين تمثيلات الأشخاص على مستوى الإطار، ودمج الميزات المحسنة على مستوى الإطار إلى تمثيل تسلسلي على مستوى التسلسل، على التوالي، مما يسمح بالتعامل الفعّال مع العوامل المُشتتة المكانية والزمنية في مقاطع فيديو الأشخاص. كما نُقدّم أيضًا خسارة انتشار الذاكرة (memory spread loss) لمنع نموذجنا من التركيز فقط على عناصر محددة داخل الذاكرة. أظهرت النتائج التجريبية على المعايير القياسية، بما في ذلك MARS وDukeMTMC-VideoReID وLS-VID، فعالية طريقة عملنا.