HyperAIHyperAI
منذ 18 أيام

المحول البصري المعتمد على التصحيح المعرفي (AD-ViT) للتعرف على الأشخاص على المدى الطويل

{and Venu Govindaraju, Srirangaraj Setlur, Deen Mohan, Bhavin Jawade, Kyung Won Lee}
الملخص

تهدف إعادة التعرف على الأشخاص (re-ID) إلى استرجاع صور الأشخاص الذين يحملون نفس الهوية من مجموعة صور (Gallery) تحت كاميرات وزوايا مختلفة. ومع ذلك، يفترض معظم الأبحاث في مجال إعادة التعرف على الأشخاص بيئة قصيرة الأمد، والتي تتميز بالثبات في المظهر. في المقابل، تُلاحظ تباين بصري مرتفع في بيئة طويلة الأمد بسبب تغير الملابس والإكسسوارات، مما يجعل المهمة أكثر تحديًا. ولذلك، يُعدّ تعلّم ميزات مميزة للهوية، مستقلة عن الميزات المتغيرة زمنيًا، أمرًا حاسمًا لضمان أداء قوي في إعادة التعرف على الأشخاص على المدى الطويل. ولتحقيق ذلك، نقترح نموذجًا يُدعى "مُحول الرؤية المعتمد على تقليل التحيز في السمات" (AD-ViT)، الذي يوفر إشرافًا مباشرًا لتمكين النموذج من تعلّم ميزات مميزة للهوية. وبشكل خاص، نُنتج علامات سمات (attribute labels) للInstances البشرية، ونستخدمها لتوجيه النموذج نحو التركيز على الميزات المميزة للهوية من خلال تقنية التراجع التدرجي للجزيئات (gradient reversal). وقد أظهرت تجاربنا على مجموعتي بيانات طويل الأمد لإعادة التعرف على الأشخاص (LTCC وNKUP) أن العمل المقترح يتفوّق باستمرار على الطرق الحالية الأفضل في مجالها.