DMRNet++: تعلّم الميزات التمييزية باستخدام شبكات منفصلة وأزواج مُثرّاة لبحث شخصي واحد الخطوة

تهدف عملية البحث عن الأشخاص إلى تحديد موقع الأشخاص المطلوبين وتمييزهم من إطارات الفيديو الخام، وهي تجمع بين مهمتين فرعيتين رئيسيتين، وهما كشف المشاة (pedestrian detection) وتحديد الهوية الشخصية (person re-identification). ويُعرف النمط السائد باسم "البحث عن الأشخاص في خطوة واحدة" (one-step person search)، الذي يُحسّن بشكل مشترك كشف الهوية والتمييز داخل شبكة موحدة، ويُظهر كفاءة أعلى. ومع ذلك، لا تزال هناك تحديات كبيرة: (أ) تضارب الأهداف بين المهام الفرعية المتعددة ضمن الفضاء المُشترك للسمات، (ب) تباين بنك الذاكرة الناتج عن حجم الدُفعات المحدود، (ج) الاستخدام غير الكافي للهويات غير المُعلَّمة أثناء تعلُّم التمييز. ولحل هذه المشكلات، نطور شبكة مُحسّنة مُفصَّلة ومضمّنة بذاكرة قوية (DMRNet++). أولاً، نبسّط العمليات المُترابطة بشكل وثيق القياسية، ونُنشئ إطارًا مُفصَّلًا وفق المهام (TDF). ثانيًا، نُنشئ آلية مدعومة بالذاكرة (MRM)، باستخدام متوسط متحرك بطيء للشبكة لتحسين ترميز اتساق السمات المُحفوظة. ثالثًا، وباعتبارًا للإمكانيات الكامنة في العينات غير المُعلَّمة، نُنظِّر عملية التمييز على أنها تعلم شبه مُشرَّف. ونُطوّر خسارة تباينية مُساعَدة بالعينات غير المُعلَّمة (UCL) لتعزيز تعلُّم السمات الخاصة بالتمييز من خلال استغلال تجميع الهويات غير المُعلَّمة. من الناحية التجريبية، حقق DMRNet++ متوسط دقة التصنيف (mAP) قدره 94.5% و52.1% على مجموعتي بيانات CUHK-SYSU وPRW، ما يفوق معظم الطرق الحالية.