تشابه الكاميرا الداخلي-الخارجي للتعرف على الأشخاص بدون تدريب

تُنتج معظم الدراسات المتعلقة بتحديد الأشخاص دون توجيه (Re-ID) علامات افتراضية من خلال قياس تشابه الميزات دون أخذ الفروق في التوزيع بين الكاميرات بعين الاعتبار، مما يؤدي إلى انخفاض دقة حساب العلامات عبر الكاميرات المختلفة. تهدف هذه الورقة إلى معالجة هذا التحدي من خلال دراسة تشابه جديد داخلي-بيني بين الكاميرات لاستخدامه في إنشاء العلامات الافتراضية. نقوم بتفكيك عملية حساب تشابه العينات إلى مرحلتين: الأولى تتعلق بالتشابه الداخلي بين الكاميرات، والثانية بالتشابه بين الكاميرات. في المرحلة الأولى، نستخدم بشكل مباشر ميزات الشبكة العصبية التلافيفية (CNN) لحساب التشابه ضمن كل كاميرا على حدة. وتعمل العلامات الافتراضية المُنشأة على الكاميرات المختلفة على تدريب نموذج إعادة التعرف على الأشخاص ضمن شبكة متعددة الفروع. أما في المرحلة الثانية، فإننا نعتبر درجات التصنيف لكل عينة على الكاميرات المختلفة كمتجه ميزة جديد. يُعد هذا المتجه الجديد فعّالاً في تقليل الفروق في التوزيع بين الكاميرات، مما يؤدي إلى إنشاء علامات افتراضية أكثر موثوقية. ولهذا السبب، نقوم بتدريب نموذج إعادة التعرف على الأشخاص في مرحلتين، باستخدام العلامات الافتراضية الداخلية بين الكاميرات والداخلية داخل الكاميرات على التوالي. يُظهر هذا النهج البسيط للتشابه الداخلي-بيني بين الكاميرات أداءً ممتازًا بشكل مفاجئ على عدة مجموعات بيانات، حيث يحقق دقة تصنيف في المرتبة الأولى بلغت 89.5% على مجموعة بيانات Market1501، متفوقًا على الدراسات الحديثة دون توجيه بنسبة تزيد عن 9%، ومقارِنًا بأفضل الدراسات القائمة على التعلم المنقول التي تعتمد على معلومات إضافية.