HyperAIHyperAI
منذ 4 أشهر

تعلم الديناميكيات البشرية ثلاثية الأبعاد من الفيديو

Kanazawa, Angjoo ; Zhang, Jason Y. ; Felsen, Panna ; Malik, Jitendra
تعلم الديناميكيات البشرية ثلاثية الأبعاد من الفيديو
الملخص

من صورة لشخص في حركة، يمكننا بسهولة تخمين الحركة ثلاثية الأبعاد للشخص في الماضي القريب والمستقبل. وهذا يعود إلى أن لدينا نموذج ذهني للديناميكيات البشرية ثلاثية الأبعاد الذي اكتسبناه من مراقبة سلاسل صورية لأشخاص في حركة. نقدم إطارًا يمكنه التعلم بشكل مشابه لتمثيل ديناميكيات البشر ثلاثية الأبعاد من الفيديو عبر ترميز زمني بسيط ولكنه فعال لميزات الصور. أثناء الاختبار، يمكن للتمثيل الزمني المتعلم إنتاج تنبؤات شبكية ثلاثية الأبعاد سلسة من الفيديو. من صورة واحدة، يمكن لنموذجنا استعادة الشبكة الحالية ثلاثية الأبعاد وكذلك حركتها الماضية والمستقبلية ثلاثية الأبعاد. تم تصميم نهجنا بحيث يمكنه التعلم من الفيديوهات ذات التوضيحات ثنائية الأبعاد بطريقة شبه مشرفة. رغم أن البيانات المصححة دائمًا محدودة، إلا أنه يتم رفع ملايين الفيديوهات يوميًا على الإنترنت. في هذا العمل، نستفيد من هذه المصدر الضخم غير المصحح للبيانات عن طريق تدريب نموذجنا على بيانات الفيديو غير المصححة مع وضعيات ثنائية أبعاد وهمية تم الحصول عليها من كاشف وضعيات ثنائية أبعاد جاهز (off-the-shelf 2D pose detector). تظهر تجاربنا أن إضافة المزيد من الفيديوهات ذات الوضعيات الثنائية الوهمية تحسن أداء التنبؤ الثلاثي الأبعاد بشكل متزايد. قمنا بتقييم نموذجنا "استعادة الشبكة البشرية والحركات" (Human Mesh and Motion Recovery - HMMR) على مجموعة البيانات الحديثة والصعبة "الوضعيات الثلاثية الأبعاد في الطبيعة" (3D Poses in the Wild) وحصلنا على أفضل أداء في مهمة التنبؤ الثلاثي الأبعاد دون أي ضبط دقيق (fine-tuning). يمكن العثور على موقع المشروع مع الفيديو والكود والبيانات على الرابط التالي: https://akanazawa.github.io/human_dynamics/.