الاستعداد الحركي البشري الهرمي العام للوظائف باستخدام VAEs

يمكن أن يُحقق نموذج توليدي عميق يصف حركات الإنسان فوائد واسعة النطاق لمجموعة من المهام الأساسية في رؤية الحاسوب والرسوم الحاسوبية، مثل تعزيز المرونة في تقدير وضعية الإنسان بناءً على مقاطع الفيديو، وتوقع الحركات الكاملة للجسم لأنظمة التقاط الحركة أثناء التغطية، ومساعدة الرسوم المتحركة باستخدام الإطارات الرئيسية على إنشاء حركات واقعية. في هذه الورقة، نقدم طريقة لتعلم الحركات البشرية المعقدة بمعزل عن المهام المحددة باستخدام فضاء لاتيني مركب يجمع بين الفضاء العالمي والفضاء المحلي، بهدف تسهيل النمذجة على مستويين: خشن ودقيق. وبشكل خاص، نقترح نموذجًا تلقائيًا تباينيًا هرميًا للحركة (HM-VAE) يتكون من فضاء لاتيني هرمي مكوّن من مستويين. في حين يلتقط الفضاء اللاتيني العالمي الحركة الشاملة للجسم ككل، يمكّن الفضاء اللاتيني المحلي من التقاط الوضعيات الدقيقة لأجزاء الجسم المختلفة. ونُظهر فعالية نموذجنا الهرمي التلقائي التبايني للحركة في مجموعة متنوعة من المهام، بما في ذلك تقدير وضعية الإنسان بناءً على الفيديو، واستكمال الحركة من ملاحظات جزئية، وتركيب الحركة من إطارات رئيسية نادرة. ورغم أن نموذجنا لم يُدرَّس خصيصًا لأي من هذه المهام، إلا أنه يُقدّم أداءً متفوقًا مقارنة بالحلول المخصصة لكل مهمة على حدة. ويمكن لهذا النموذج العام المسبق لحركات الإنسان أن يصلح الحركات البشرية التالفة وينشئ حركات كاملة من ملاحظات غير مكتملة.