HyperAIHyperAI
منذ 3 أشهر

الهبوط العصبي لوضعية وشكل الإنسان ثلاثي الأبعاد البصري

Andrei Zanfir, Eduard Gabriel Bazavan, Mihai Zanfir, William T. Freeman, Rahul Sukthankar, Cristian Sminchisescu
الهبوط العصبي لوضعية وشكل الإنسان ثلاثي الأبعاد البصري
الملخص

نقدم منهجية قائمة على الشبكات العصبية العميقة لإعادة بناء الوضعية والشكل ثلاثي الأبعاد للأشخاص، بالاعتماد على صورة RGB كمدخل. نعتمد على نموذج إحصائي ثلاثي الأبعاد شامل للجسم البشري، يُدعى GHUM، الذي تم تدريبه بشكل متكامل (end-to-end) حديثًا، ونُعلّم إعادة بناء حالة الوضعية والشكل الخاصة به ضمن بيئة تعلم ذاتي (self-supervised). وجوهر منهجيتنا يكمن في نهج يُعرف بـ "الهبوط العصبي البشري" (HUmanNeural Descent - HUND)، والذي يتجنب كلاً من التفاضل من الدرجة الثانية أثناء تدريب معاملات النموذج، والانحدار التدرجي للحالة المكلف من حيث الحوسبة بهدف تقليل دالة فقدان التصوير القابلة للتفاضل ذات المعنى بدقة أثناء الاختبار. بدلًا من ذلك، نعتمد على مراحل متكررة مبتكرة لتحديث معاملات الوضعية والشكل، بحيث لا يُحقق تقليلًا فعّالًا للخسارة فحسب، بل يُطبّق أيضًا تنظيمًا ماكرويًا (meta-regularization) لضمان التقدم المستمر في العملية. تُعدّ التماثل بين التدريب والاختبار في HUND هو ما يجعلها أول بنية لاستشعار الإنسان ثلاثي الأبعاد تدعم بشكل أساسي سيناريوهات تشغيل متنوعة، بما في ذلك السيناريوهات ذاتية التعلم. وقد أظهرت الاختبارات المتنوعة أن HUND تحقق نتائج تنافسية للغاية على مجموعات بيانات مثل H3.6M و3DPW، كما تُنتج إعادة بناء ثلاثية الأبعاد عالية الجودة حتى في الصور المعقدة المُجمعة من البيئة الطبيعية (in-the-wild).