الانتشار المعرفي الزمني لإعادة التعرف على الأشخاص من الصور إلى الفيديو

في العديد من سيناريوهات إعادة التعرف على الشخص (Re-ID)، يتكون مجموعة الاستعراض (gallery set) من الكثير من مقاطع الفيديو المراقبة، بينما يكون الاستعلام (query) مجرد صورة، وبالتالي يجب أن تُجرى عملية إعادة التعرف بين الصور والفيديوهات. بالمقارنة مع مقاطع الفيديو، فإن الصور الثابتة للأشخاص تفتقر إلى المعلومات الزمنية. بالإضافة إلى ذلك، يزيد عدم التناظر في المعلومات بين خصائص الصور ومقاطع الفيديو من صعوبة مطابقة الصور مع مقاطع الفيديو. لحل هذه المشكلة، نقترح طريقة جديدة لنشر المعرفة الزمنية (Temporal Knowledge Propagation - TKP) التي تقوم بنقل المعرفة الزمنية التي تم تعلمها بواسطة شبكة تمثيل الفيديو إلى شبكة تمثيل الصورة. بصفة خاصة، عند إدخال مقاطع الفيديو، نقوم بفرض مطابقة مخرجات شبكة تمثيل الفيديو لمخرجات شبكة تمثيل الصورة في فضاء خصائص مشترك. عن طريق الانتشار العكسي (back propagation)، يمكن نقل المعرفة الزمنية لتعزيز خصائص الصورة وتخفيف مشكلة عدم التناظر في المعلومات. باستخدام خسائر تصنيف إضافية وخسائر الثلاثي المتكاملة (integrated triplet losses)، يمكن لنموذجنا تعلم خصائص صور وفيديوهات تعبرية ومميزة لإعادة التعرف من الصورة إلى الفيديو. أظهرت التجارب الواسعة فعالية طريقتنا، حيث تفوقت النتائج الإجمالية على مجموعتين من البيانات شائع استخدامهما بشكل كبير على الأساليب الرائدة في المجال. الكود متاح على الرابط التالي:https://github.com/guxinqian/TKP