التعرف المُعاد المُتماسك من خلال تبادل المعرفة من عدة وجهات نظر

لتحقيق الموثوقية في التعرف على الهوية (Re-Identification)، تعتمد الطرق القياسية على معلومات التتبع بطريقة "فيديو إلى فيديو". ومع ذلك، تواجه هذه الحلول انخفاضًا كبيرًا في الأداء عند استخدام استفسارات صورة واحدة (مثل إعداد "صورة إلى فيديو"). وحلّت الدراسات الحديثة هذه المشكلة الشديدة من خلال نقل المعلومات الزمنية من شبكة تعتمد على الفيديو إلى شبكة تعتمد على الصورة. في هذا العمل، نقترح استراتيجية تدريب تتيح نقل معرفة متفوقة ناتجة عن مجموعة من الأطر المرئية التي تعرض الكائن المستهدف. تتمثل مقترحاتنا، المسمّاة "تقطيع المعرفة من خلال الأطر المرئية" (Views Knowledge Distillation - VKD)، في استخدام هذا التنوّع البصري كإشارة توجيهية ضمن إطار مدرّس-تلميذ، حيث يُدرّس المدرّس تلميذًا يراقب عددًا أقل من الأطر. وبنتيجة ذلك، يتفوّق التلميذ ليس فقط على مدرّسه، بل أيضًا على أفضل الأداء الحالي في مهام "صورة إلى فيديو" بفارق كبير (6.3% في مقياس mAP على مجموعات MARS، و8.6% على Duke-Video-ReId، و5% على VeRi-776). وتمّ إجراء تحليل شامل في مجالات التعرف على الأشخاص، والمركبات، والحيوانات، لدراسة خصائص VKD من منظور كمي ونوعي. يمكن الوصول إلى الكود عبر الرابط: https://github.com/aimagelab/VKD.