HyperAIHyperAI
منذ 11 أيام

تعلم تمثيل قابل للتحويل للمشاة من خلال الإشراف على المعلومات متعددة الوسائط

Liping Bao, Longhui Wei, Xiaoyu Qiu, Wengang Zhou, Houqiang Li, Qi Tian
تعلم تمثيل قابل للتحويل للمشاة من خلال الإشراف على المعلومات متعددة الوسائط
الملخص

أظهرت الدراسات الحديثة حول إعادة التعرف على الأشخاص بدون تدريب مُشرَّف (reID) أن التدريب المسبق على صور أشخاص غير مُصنَّفة يؤدي إلى أداء أفضل في مهام إعادة التعرف على الأشخاص لاحقًا مقارنةً بالتدريب المسبق على مجموعة بيانات ImageNet. ومع ذلك، فإن الطرق المُدرَّبة مسبقًا التي تم تطويرها خصيصًا لمهام إعادة التعرف على الأشخاص تعاني من قلة المرونة في التكيُّف مع مهام تحليل المشاة الأخرى. في هذا البحث، نقترح إطار عمل جديد يُسمَّى VAL-PAT، يُعلِّم تمثيلات قابلة للنقل لتحسين مهام تحليل المشاة المختلفة باستخدام معلومات متعددة الوسائط. لتدريب إطارنا، نقدِّم ثلاثة أهداف للتعلم، وهي: التعلم التبايني ذاتي التوجيه، والتعلم التبايني بين الصورة والنص، والتصنيف متعدد السمات. يُسهم التعلم التبايني ذاتي التوجيه في تعلم الخصائص الجوهرية للأشخاص، في حين يوجه التعلم التبايني بين الصورة والنص النموذج لتركيز الانتباه على معلومات المظهر الخاصة بالمشاة. وفي الوقت نفسه، يشجع التصنيف متعدد السمات النموذج على التعرف على السمات لاستخراج معلومات دقيقة عن المشاة. نقوم أولًا بتدريب مسبق على مجموعة بيانات LUPerson-TA، التي تحتوي كل صورة فيها على تعليقات نصية وسمات، ثم نُحَوِّل التمثيلات المُكتسبة إلى مهام لاحقة متنوعة، بما في ذلك إعادة التعرف على الأشخاص، وتمييز سمات الأشخاص، وبحث الأشخاص بناءً على النصوص. تُظهر التجارب الواسعة أن إطارنا يُسهم في تعلُّم تمثيلات عامة للأشخاص، مما يؤدي إلى نتائج واعدة في مهام تحليل المشاة المختلفة.

تعلم تمثيل قابل للتحويل للمشاة من خلال الإشراف على المعلومات متعددة الوسائط | أحدث الأوراق البحثية | HyperAI