HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تمثيل قابل للتحويل للمشاة من خلال الإشراف على المعلومات متعددة الوسائط

Liping Bao Longhui Wei Xiaoyu Qiu Wengang Zhou Houqiang Li Qi Tian

الملخص

أظهرت الدراسات الحديثة حول إعادة التعرف على الأشخاص بدون تدريب مُشرَّف (reID) أن التدريب المسبق على صور أشخاص غير مُصنَّفة يؤدي إلى أداء أفضل في مهام إعادة التعرف على الأشخاص لاحقًا مقارنةً بالتدريب المسبق على مجموعة بيانات ImageNet. ومع ذلك، فإن الطرق المُدرَّبة مسبقًا التي تم تطويرها خصيصًا لمهام إعادة التعرف على الأشخاص تعاني من قلة المرونة في التكيُّف مع مهام تحليل المشاة الأخرى. في هذا البحث، نقترح إطار عمل جديد يُسمَّى VAL-PAT، يُعلِّم تمثيلات قابلة للنقل لتحسين مهام تحليل المشاة المختلفة باستخدام معلومات متعددة الوسائط. لتدريب إطارنا، نقدِّم ثلاثة أهداف للتعلم، وهي: التعلم التبايني ذاتي التوجيه، والتعلم التبايني بين الصورة والنص، والتصنيف متعدد السمات. يُسهم التعلم التبايني ذاتي التوجيه في تعلم الخصائص الجوهرية للأشخاص، في حين يوجه التعلم التبايني بين الصورة والنص النموذج لتركيز الانتباه على معلومات المظهر الخاصة بالمشاة. وفي الوقت نفسه، يشجع التصنيف متعدد السمات النموذج على التعرف على السمات لاستخراج معلومات دقيقة عن المشاة. نقوم أولًا بتدريب مسبق على مجموعة بيانات LUPerson-TA، التي تحتوي كل صورة فيها على تعليقات نصية وسمات، ثم نُحَوِّل التمثيلات المُكتسبة إلى مهام لاحقة متنوعة، بما في ذلك إعادة التعرف على الأشخاص، وتمييز سمات الأشخاص، وبحث الأشخاص بناءً على النصوص. تُظهر التجارب الواسعة أن إطارنا يُسهم في تعلُّم تمثيلات عامة للأشخاص، مما يؤدي إلى نتائج واعدة في مهام تحليل المشاة المختلفة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp