C2T-Net: شبكات من نوع Transformer ذات دمج عابر يراعي القنوات لتمييز صفات المشاة

تمثّل التعرف على السمات البشرية (PAR) تحديًا كبيرًا لكنها ذات أهمية عملية في مجالات الأمن المختلفة، بما في ذلك المراقبة. في إطار تحدّي UPAR، تقدّم هذه الورقة شبكة C2T-Net، وهي شبكة من نوع Transformers ذات تفكير مُوجّه بالقنوات وتُدمج عبر تبادل (Channel-Aware Cross-Fused Transformer-Style Networks). تعتمد هذه الشبكة على دمج فعّال لشبكتين قويتين من نوع Transformers، وهما: مُحول Swin (SwinT) ونوع مُعدّل من نموذج الـ Vision Transformer الأصلي (EVA ViT). ويهدف هذا الدمج إلى التقاط الجوانب المحلية والعالمية للفرد لتمييز سماته بدقة. ولتسهيل فهم العلاقات المعقدة بين القنوات، تم تصميم آلية انتباه ذات وعي بالقناة (channel-aware self-attention) ودمجها داخل كل كتلة من كتل مُحول SwinT. علاوةً على ذلك، يتم تحقيق دمج الميزات المستمدة من الشبكتين عبر آلية تبادلية (cross-fusion)، مما يمكّن كل شبكة من تعزيز وتحسين التفاصيل النسيجية الموجودة في الأخرى. وقد أثبتت النتائج فعالية النموذج المقترح من خلال أدائه على ثلاث معايير معيارية للتعرف على السمات البشرية: PA100K وPETA وUPAR2024 الخاصة بالاختبار الخاص. وبالنسبة إلى معيار PA100K، حقق النموذج أداءً متقدمًا جدًا مقارنةً بالنماذج التي لا تعتمد تقنيات ما قبل التدريب. كما يظل أداء النموذج على مجموعة بيانات PETA منافسًا، ويوازي نماذج أخرى حديثة ومتقدمة. وبشكل ملحوظ، تفوّق النموذج في المركز الثاني على مجموعة اختبار UPAR2024-Track-1. يُمكن الاطلاع على الكود المصدري عبر الرابط التالي: https://github.com/caodoanh2001/upar_challenge.