HyperAIHyperAI
منذ 2 أشهر

تقدير وضعية الإنسان ثلاثية الأبعاد في الفيديو باستخدام التحويلات الزمنية والتدريب شبه المشرف

Dario Pavllo; Christoph Feichtenhofer; David Grangier; Michael Auli
تقدير وضعية الإنسان ثلاثية الأبعاد في الفيديو باستخدام التحويلات الزمنية والتدريب شبه المشرف
الملخص

في هذا العمل، نثبت أن مواقف الجسم ثلاثية الأبعاد في الفيديو يمكن تقديرها بكفاءة باستخدام نموذج تبولي كلي يعتمد على الالتفافات الزمنية الممتدة فوق نقاط المفتاح ثنائية الأبعاد. كما نقدم تقنية الإسقاط العكسي، وهي طريقة تدريب شبه مراقبة بسيطة وفعالة تستفيد من بيانات الفيديو غير المصنفة. نبدأ بتوقع نقاط المفتاح ثنائية الأبعاد للفيديو غير المصنف، ثم نقدر مواقف الجسم ثلاثية الأبعاد وأخيراً نقوم بالإسقاط العكسي إلى النقاط ثنائية الأبعاد المدخلة. في الإعداد المراقب بالكامل، يتفوق نموذجنا التبولي الكلي على أفضل النتائج السابقة من الأدبيات العلمية بمقدار خطأ متوسط في موقع كل مفصل قدره 6 ملم على مجموعة بيانات Human3.6M، مما يعادل خفض الخطأ بنسبة 11%، كما يظهر النموذج تحسينات كبيرة على مجموعة بيانات HumanEva-I. علاوة على ذلك، أظهرت التجارب مع الإسقاط العكسي أنه يتفوق بسهولة على أفضل النتائج السابقة في الإعدادات شبه المراقبة حيث تكون البيانات المصنفة نادرة. الرمز والنماذج متاحة على الرابط: https://github.com/facebookresearch/VideoPose3D