SMPLer-X: توسعة تقدير الوضع والشكل التعبيري للإنسان

تقدير الوضع والشكل التعبيري للإنسان (EHPS) يوحّد التقاط حركة الجسم واليدين والوجه مع تطبيقات عديدة. رغم التقدم المُشجع، لا تزال الأساليب الرائدة حالياً تعتمد بشكل كبير على مجموعة محددة من قواعد البيانات التدريبية. في هذا العمل، نقوم بدراسة توسيع نطاق تقدير الوضع والشكل التعبيري للإنسان نحو أول نموذج أساسي عام (الذي أطلق عليه اسم SMPLer-X)، باستخدام ما يصل إلى ViT-Huge كنواة وتدريبه باستخدام ما يصل إلى 4.5 مليون حالة من مصادر بيانات متنوعة. ومع البيانات الكبيرة والنماذج الكبيرة، يظهر SMPLer-X أداءً قويًا عبر مجموعة متنوعة من مقاييس الاختبار وقدرة نقل ممتازة حتى إلى بيئات غير مرئية سابقًا. 1) فيما يتعلق بتوسيع نطاق البيانات، نقوم بإجراء تحقيق منهجي في 32 مجموعة بيانات لتقدير الوضع والشكل التعبيري للإنسان، والتي تشمل مجموعة واسعة من السيناريوهات التي لا يمكن لأي نموذج تم تدريبه على مجموعة بيانات واحدة التعامل معها. وأكثر أهمية من ذلك، استنادًا إلى الرؤى المستخلصة من عملية الاختبار الشاملة، قمنا بتحسين نظام التدريب واختيار قواعد البيانات التي أدت إلى قفزة كبيرة في قدرات تقدير الوضع والشكل التعبيري للإنسان.2) فيما يتعلق بتوسيع نطاق النموذج، نستفيد من محولات الرؤية لدراسة قانون توسع أحجام النماذج في تقدير الوضع والشكل التعبيري للإنسان. بالإضافة إلى ذلك، فإن استراتيجيتنا لضبط النموذج النهائي تحول SMPLer-X إلى نماذج متخصصة، مما يسمح لها بالتحقيق في زيادة الأداء. ومن الجدير بالذكر أن نموذجنا الأساسي SMPLer-X يقدم باستمرار أفضل النتائج الحالية في سبعة مقاييس اختبار مثل AGORA (107.2 مم NMVE)، UBody (57.4 مم PVE)، EgoBody (63.6 مم PPE)، و EHF (62.3 مم PVE بدون ضبط نهائي).صفحة الرئيسية: https://caizhongang.github.io/projects/SMPLer-X/