HyperAIHyperAI
منذ 18 أيام

Transformer مُراعٍ للنمط في إعادة التعرف على الأشخاص

{Dongxiao Yu, Xiaowei Yu, Zengrui Zhao, Yanwei Zheng}
الملخص

إعادة تحديد الأشخاص (ReID) هي مهمة صعبة في مجال الرؤية الحاسوبية تهدف إلى تحديد أو التحقق من هوية شخص أو أكثر عندما تكون الوجوه غير متاحة. في مهام ReID، يُعد الخلفية المتشابهة عادةً عاملًا يؤثر سلبًا على إدراك النموذج للجزء الأمامي (الشخص)، مما يقلل من أداء النظام. بشكل عام، تكون الخلفيات في نفس الكاميرا متشابهة، بينما تختلف بشكل كبير بين الكاميرات المختلفة. استنادًا إلى هذا الملاحظة، نقترح طريقة تُسمى "مُحول مُدرك للقوالب" (TAT)، والتي تتعلم ميزات غير قابلة للتمييز بين العينات من خلال إدخال قوالب قابلة للتعلم ضمن هيكل المحول (Transformer)، بهدف تقليل انتباه النموذج إلى مناطق الصورة ذات التمييز المنخفض، بما في ذلك الخلفيات والعيون (الإغلاق). في وحدة الانتباه متعددة الرؤوس ضمن المُشفّر (encoder)، توجه هذه القالب الانتباه المُدرك للقالب نحو الميزات غير القابلة للتمييز في الصورة، وتعزز تدريجيًا الانتباه للميزات القابلة للتمييز مع تعمق طبقات المُشفّر. كما نزيد من عدد القوالب باستخدام معلومات جانبية، مع الأخذ بعين الاعتبار خصائص مهام ReID، لتمكين النموذج من التكيّف مع الخلفيات التي تختلف بشكل كبير حسب معرف الكاميرا (Camera ID). وأخيرًا، نُثبت صحة نظرياتنا من خلال تقييمات كمية على عدة مجموعات بيانات عامة، ونحقق نتائج تنافسية تُظهر كفاءة النموذج.

Transformer مُراعٍ للنمط في إعادة التعرف على الأشخاص | أحدث الأوراق البحثية | HyperAI