HyperAIHyperAI
منذ 16 أيام

الميزات متعددة الحُرُوف المستندة إلى Transformer للتعريف بالشخص غير المُراقب

Jiachen Li, Menglin Wang, Xiaojin Gong
الميزات متعددة الحُرُوف المستندة إلى Transformer للتعريف بالشخص غير المُراقب
الملخص

أظهرت السمات متعددة الحُجَر المُستخرجة من الشبكات العصبية التلافيفية (CNNs) قدرة تمييزية قوية في مهام إعادة تحديد الأشخاص المُدرَّبة بأسلوب مُراقب (Re-ID). مستوحاة من هذه النتائج، تبحث هذه الدراسة في طريقة استخلاص سمات متعددة الحُجَر من شبكة مُجرّدة من نوع المُحوّل (Transformer) لمعالجة مشكلة إعادة التعرف على الأشخاص غير المُدرَّبة (Unsupervised Re-ID)، والتي تخلو من التسميات ولكنها أكثر تحديًا بكثير. ولتحقيق هذا الهدف، نُنشئ هيكل شبكة ثنائي الفرع (Dual-branch) مبنيًا على نموذج مُعدّل من المُحوّل البصري (Vision Transformer - ViT). حيث يتم إعادة تشكيل الرموز المحلية (local tokens) الناتجة في كل فرع، ثم تقسيمها بشكل موحد إلى شرائط متعددة لإنتاج سمات على مستوى الأجزاء، في حين يتم أخذ المتوسط الحسابي للرموز العالمية (global tokens) من الفرعين لإنتاج سمة عالمية. علاوةً على ذلك، واعتمادًا على طريقة O2CAP (Offline-Online Associated Camera-Aware Proxies)، التي تُعدّ من أفضل الطرق المُستخدمة في إعادة التعرف غير المُدرَّبة، نُعرّف خسائر تعلّم تباينية (contrastive learning losses) على المستوى غير المُراقب، لكل من السمات العالمية والجزئية، لتنفيذ التعلّم غير المُدرَّب. أظهرت التجارب الواسعة على ثلاث مجموعات بيانات لإعادة التعرف على الأشخاص أن الطريقة المقترحة تتفوّق على أحدث الطرق غير المُدرَّبة بشكل ملحوظ، وتحسّن بشكل كبير الفجوة بين النتائج المُحققة ونتائج النماذج المُدرَّبة بأسلوب مُراقب. سيتم إتاحة الكود قريبًا على الرابط التالي: https://github.com/RikoLi/WACV23-workshop-TMGF.

الميزات متعددة الحُرُوف المستندة إلى Transformer للتعريف بالشخص غير المُراقب | أحدث الأوراق البحثية | HyperAI