HyperAIHyperAI
منذ 2 أشهر

التقاط حركة كل مفصل: تقدير الوضع والشكل البشري ثلاثي الأبعاد باستخدام الرموز المستقلة

Yang, Sen ; Heng, Wen ; Liu, Gang ; Luo, Guozhong ; Yang, Wankou ; Yu, Gang
التقاط حركة كل مفصل: تقدير الوضع والشكل البشري ثلاثي الأبعاد باستخدام الرموز المستقلة
الملخص

في هذا البحث، نقدم طريقة جديدة لتقدير الوضع والشكل البشري ثلاثي الأبعاد من مقاطع الفيديو الأحادية العدسة. تتطلب هذه المهمة استعادة مباشرة للوضع البشري ثلاثي الأبعاد ومظهر الجسم من الصور أو مقاطع الفيديو الأحادية العدسة، وهي مهمة صعبة بسبب الغموض الداخلي لها. لتحسين الدقة، تعتمد الطرق الحالية بشكل كبير على وضع وشكل الجسم المتوسط كتقديرات أولية وتراجع المعلمات بطريقة تكرارية مع رد فعل الخطأ. بالإضافة إلى ذلك، تقوم الأساليب القائمة على الفيديو بنمذجة التغيير الكلي في الخصائص على مستوى الصورة لتعزيز خصائص الإطار الواحد زمنياً، لكنها تفشل في التقاط حركة الدوران على مستوى المفاصل ولا تستطيع ضمان التوافق الزمني المحلي. لحل هذه المشكلات، نقترح نموذجاً جديداً يستند إلى تقنية Transformer مع تصميم للمعايير المستقلة. أولاً، نقدم ثلاثة أنواع من المعايير المستقلة عن خصائص الصورة: \textit{معيار دوران المفصل (joint rotation token)، معيار الشكل (shape token)، ومعيار الكاميرا (camera token)}. من خلال التفاعل التدريجي مع خصائص الصورة عبر طبقات Transformer، تتعلم هذه المعايير ترميز المعرفة السابقة حول دوران المفاصل البشرية ثلاثية الأبعاد وشكل الجسم والمعلومات المكانية من بيانات ذات نطاق واسع، ويتم تحديثها لتقدير معلمات SMPL بناءً على صورة معينة. ثانياً، بفضل التمثيل القائم على المعامل المقترح، نستخدم نموذجاً زمنياً يركز على التقاط المعلومات الزمنية الدورانية لكل مفصل، وهو ما يساعد عملياً في منع الاهتزاز الكبير في الأجزاء المحلية. رغم بساطتها النظرية، فإن الطريقة المقترحة تحقق أداءً فائقاً على مجموعتي البيانات 3DPW وHuman3.6M. باستخدام هندسات ResNet-50 وTransformer، تحصل الطريقة على خطأ قدره 42.0 ملم في مؤشر PA-MPJPE لمجموعة البيانات 3DPW الصعبة، مما يتفوق بشكل كبير على الطرق الرائدة الأخرى. سيتم توفير الكود بشكل عام في الرابط التالي:https://github.com/yangsenius/INT_HMR_Model