ViTPose++: Vision Transformer لتقدير وضع الجسم العام

في هذه الورقة، نوضح الخصائص الجيدة المفاجئة للمساهمات البصرية البسيطة في تقدير وضع الجسم من جوانب مختلفة، وهي البساطة في هيكل النموذج، والقابلية للتوسع في حجم النموذج، والمرونة في منهجية التدريب، ونقل المعرفة بين النماذج، وذلك من خلال نموذج أساسي بسيط يُطلق عليه اسم ViTPose. بشكل خاص، يستخدم ViTPose مساهمًا بصريًا بسيطًا وغير هرمي كمُشفر لترميز الخصائص ومُفكك رموز خفيف لفك تشفير نقاط الجسم بطريقة تصاعدية أو هبوطية. يمكن توسيعه من حوالي 20 مليون إلى مليار معلمة عن طريق الاستفادة من قابلية النموذج للتوسع والموازاة العالية للمساهم البصري، مما يحدد جبهة باريتو جديدة للأداء والمرور.بالإضافة إلى ذلك، فإن ViTPose يتمتع بمرونة كبيرة فيما يتعلق بنوع الانتباه، ودقة الإدخال، واستراتيجيات التدريب الأولي والتحسين الدقيق. استنادًا إلى هذه المرونة، تم اقتراح نموذج جديد يُسمى ViTPose+ للتعامل مع فئات نقاط الجسم غير المتجانسة في أنواع مختلفة من مهام تقدير وضع الجسم عبر تحليل عوامل المعرفة، أي باستخدام شبكات تغذية الأمام العامة والمحددة للمهمة داخل المتحول. كما أظهرنا بالتجربة أنه يمكن نقل معرفة النماذج الكبيرة من ViTPose إلى النماذج الصغيرة بسهولة عبر رمز معرفي بسيط.تظهر النتائج التجريبية أن نموذج ViTPose الخاص بنا يتفوق على الأساليب الرائدة في معيار MS COCO للكشف عن نقاط الإنسان الرئيسية في كلٍّ من الإعدادات التصاعدية والهبوطية. بالإضافة إلى ذلك، حقق نموذج ViTPose+ الخاص بنا أفضل الأداء الحالي على سلسلة من مهام تقدير وضع الجسم، بما في ذلك MS COCO وAI Challenger وOCHuman وMPII لاكتشاف نقاط الإنسان الرئيسية، وكذا COCO-Wholebody لاكتشاف نقاط الجسم الكاملة، وكذلك AP-10K وAPT-36K لاكتشاف نقاط الحيوانات الرئيسية دون التضحية بسرعة الاستدلال.