تعلم تمثيلات شمولية قابلة للعامة على مقياس متعدد الأحجام للتعريف بالشخص

يجب أن يتعلم نموذج فعّال للتعريف بالشخص (re-ID) تمثيلات مميزة للسمات، بحيث تكون مميزة بما يكفي لتمييز الأشخاص ذوي المظهر الشبيه، وعامة بما يكفي لDeployment عبر مجموعات بيانات مختلفة دون الحاجة إلى أي تكييف. في هذه الورقة، نطور معمارية جديدة لشبكات التعلم التلقائي (CNN) لمعالجة كلا التحديين. أولاً، نقدم شبكة CNN للتعريف بالشخص تُسمى الشبكة الشاملة للقياس (OSNet) لتعلم سمات لا تُمكّن من التقاط مقاييس مكانيّة مختلفة فحسب، بل أيضًا تُدمج بشكل تآزري متعدّد المقاييس، ونسمّيها سمات شاملة للقياس. يتكوّن المكوّن الأساسي من تدفقات متعدّدة من التحويلات التلافيفية (convolutional streams)، حيث تكتشف كل تدفق سمات عند مقياس معين. ولتعلم السمات الشاملة للقياس، نُدخل "مفتاح تجميع موحّد" (unified aggregation gate) لدمج السمات متعدّدة المقاييس ديناميكيًا باستخدام أوزان متعدّدة حسب القنوات. وتتميز OSNet بالخفّة نسبيًا، لأن مكوّناتها الأساسية تتكوّن من تحويلات مفكّكة (factorised convolutions). ثانيًا، لتحسين تعلّم السمات العامة، نُدخل طبقات التطبيع حسب المثال (Instance Normalization - IN) إلى OSNet لمعالجة الفروق بين مجموعات البيانات المختلفة. وبالإضافة إلى ذلك، لتحديد المواقع المثلى لوضع هذه الطبقات داخل المعمارية، نصيغ خوارزمية فعّالة لبحث المعمارية القابلة للتفاضل. أظهرت التجارب الواسعة أن OSNet تحقق أداءً متفوّقًا على مستوى الحالة الحالية (state-of-the-art) في الإعداد التقليدي ذات مجموعة البيانات، رغم أن حجمها أصغر بكثير من النماذج الحالية للتعريف بالشخص. وفي الإعداد الأكثر تحدّيًا ولكن العملي، أي عبر مجموعات بيانات مختلفة، تتفوّق OSNet على معظم الطرق الحديثة للتكيف دون تدريب مسبق (unsupervised domain adaptation) دون استخدام أي بيانات مستهدفة. تم إتاحة الكود والنماذج الخاصة بنا على الرابط: \texttt{https://github.com/KaiyangZhou/deep-person-reid}.