Transformer منفصل عن الرؤية للتعريف بالشخص تحت شبكة كاميرات جوية-أرضية

أحرزت الطرق الحالية لتحديد الهوية عبر الأشخاص تقدماً ملحوظاً في ربط الهوية القائمة على المظهر عبر كاميرات متجانسة، مثل مطابقة الكاميرات الأرضية-الأرضية. ومع ذلك، ونظراً لكونها سيناريوًّا أكثر واقعية، حظي تحديد الهوية عبر الأشخاص بين الكاميرات غير المتجانسة (AGPReID) من الكاميرات الجوية والأرضية باهتمام محدود نسبياً. وللتخفيف من التأثير السلبي للانقطاع في تمثيل الهوية التمييزية الناتج عن التباين الكبير في الزوايا، الذي يُعدّ التحدي الأبرز في AGPReID، تم اقتراح إطار عمل بسيط وفعال يُدعى "المحول المُفكّك حسب الرؤية" (View-Decoupled Transformer - VDT). وتم تصميم مكونين رئيسيين داخل VDT لفصل السمات المرتبطة بالرؤية عن السمات غير المرتبطة بها، وهما: "الانفصال التفرعي الطرحى" (Hierarchical Subtractive Separation) و"الخسارة المتعامدة" (Orthogonal Loss)، حيث يُفصل المكون الأول هاتين النوعين من السمات داخل الإطار، بينما يفرض المكون الثاني استقلالهما عن بعضهما البعض. بالإضافة إلى ذلك، قمنا بتطوير مجموعة بيانات كبيرة لـ AGPReID تُسمى CARGO، وتضم خمسة/ثماني كاميرات جوية/أرضية، و5000 هوية، و108,563 صورة. أظهرت التجارب على مجموعتي بيانات أن VDT يُعدّ حلاً عملياً وفعّالاً لمشكلة AGPReID، حيث تفوق الأسلوب السابق بنسبة تصل إلى 5.0%/2.7% في مؤشر mAP/Rank1 على مجموعة CARGO، و3.7%/5.2% على مجموعة AG-ReID، مع الحفاظ على نفس مستوى التعقيد الحسابي. يمكن الوصول إلى المشروع عبر الرابط التالي: https://github.com/LinlyAC/VDT-AGPReID