UniHCP: نموذج موحد للمفاهيم المتمحورة حول الإنسان

الإدراك المتمحور حول الإنسان (مثل تقدير الوضع، تحليل الإنسان، كشف المشاة، إعادة تحديد الشخص، إلخ) يلعب دورًا مهمًا في التطبيقات الصناعية لنموذج الرؤية. بينما تركز المهام المتمحورة حول الإنسان بشكل خاص على جوانب معنى ذات صلة بها، فإنها تشترك أيضًا في البنية الدلالية الأساسية للجسم البشري. ومع ذلك، قليل من الأعمال حاولت استغلال هذه التجانس وتصميم نموذج عام لهذه المهام. في هذا العمل، نعيد النظر في نطاق واسع من المهام المتمحورة حول الإنسان ونوحّدها بطريقة مبسّطة. نقترح UniHCP، وهو نموذج موحّد لإدراك الإنسان، الذي يوحّد مجموعة واسعة من المهام المتمحورة حول الإنسان بطريقة بسيطة ومتكاملة باستخدام هندسة المحول البصري البسيط (Vision Transformer). من خلال التدريب المشترك على نطاق واسع على 33 مجموعة بيانات متمحورة حول الإنسان، يمكن لـ UniHCP أن يتفوق على النماذج الأساسية القوية في عدة مهام داخل المجال ومهام تالية مباشرة بالتقدير المباشر. عند التكيف مع مهمة محددة، يحقق UniHCP أفضل النتائج الحالية (SOTA) في نطاق واسع من المهام المتمحورة حول الإنسان، مثل 69.8 mIoU على CIHP لتحليل الإنسان، 86.18 mA على PA-100K لتوقع السمات، 90.3 mAP على Market1501 لإعادة تحديد الهوية (ReID)، و85.8 JI على CrowdHuman لكشف المشاة، مما يجعله أداءً أفضل من النماذج المتخصصة المصممة لكل مهمة.