التعرف القابل للتفسير والقابل للتعميم على الأشخاص بإعادة التعرف باستخدام التحويل الاست龃ابي للاستعلامات والرفع الزمني

لإعادة التعرف على الأشخاص، غالبًا ما تركز الشبكات العميقة الحالية على تعلم التمثيل. ومع ذلك، بدون التعلم النقل، يكون النموذج المتعلم ثابتًا كما هو، مما يجعله غير قادر على التعامل مع السيناريوهات المختلفة غير المعروفة. في هذا البحث، بالإضافة إلى تعلم التمثيل، نعتبر كيفية صياغة مطابقة صور الأشخاص مباشرة في الخرائط الميزات العميقة. نعالج مطابقة الصور كإيجاد مطابقات محلية في الخرائط الميزات، ونبني نواة انتقال استعلامية (query-adaptive convolution kernels) بشكل ديناميكي لتحقيق المطابقة المحلية. بهذه الطريقة، تكون عملية المطابقة والنتائج قابلة للتفسير، وهذه المطابقة الصريحة أكثر عمومية من ميزات التمثيل للسيناريوهات غير المعروفة مثل الاختلالات غير المعروفة، أو تغيير الوضع أو الزاوية.لتسهيل التدريب من البداية إلى النهاية لهذا الهيكل، نقوم أيضًا ببناء وحدة ذاكرة فئوية لتخزين خرائط الميزات للأمثلة الأكثر حديثة لكل فئة، وذلك لحساب خسائر مطابقة الصور للتعلم القياسي. من خلال تقييم مباشر عبر مجموعة بيانات مختلفة، يحقق طريقة الانتقال الاستعلامي (Query-Adaptive Convolution - QAConv) المقترحة تحسينات كبيرة على الأساليب الشائعة للتعلم (حوالي 10٪ + mAP)، ويحقق نتائج مشابهة لكثير من أساليب التعلم النقل. علاوة على ذلك، تم اقتراح طريقة وزن النقاط تعتمد على حدوثها الزمني دون الحاجة إلى نموذج تسمى TLift، والتي تحسن الأداء بمزيد من الدرجة وتحقق أفضل النتائج الحالية في إعادة التعرف على الأشخاص عبر مجموعة بيانات مختلفة. يمكن الحصول على الكود من الرابط التالي: https://github.com/ShengcaiLiao/QAConv.