HyperAIHyperAI

Command Palette

Search for a command to run...

استنتاج عمقي ثنائي التدفق للفيديو لتقدير وضعية وشكل الجسم البشري

Ziwen Li Bo Xu Han Huang Cheng Lu Yandong Guo

الملخص

تم اقتراح العديد من الخوارزميات القائمة على الفيديو لتقدير وضعية وشكل الجسم البشري ثلاثي الأبعاد بهدف معالجة عدم الاتساق الزمني في الطرق القائمة على الصورة الواحدة. ومع ذلك، لا يزال من الصعب تحقيق إعادة بناء مستقرة ودقيقة. في هذه الورقة، نقترح إطارًا جديدًا يُسمى Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation (DTS-VIBE)، والذي يُنتج وضعية وشبكة ثلاثية الأبعاد للجسم البشري من مقاطع الفيديو الملونة (RGB). نعيد صياغة المهمة كمشكلة متعددة الوسائط، حيث يتم دمج الصور الملونة (RGB) مع تدفق بصري (optical flow) لتحقيق تقدير أكثر موثوقية. وللاستفادة الكاملة من كلا نوعي البيانات الحسية (RGB أو تدفق بصري)، نُدرّب شبكة زمنية ذات تدفقين تعتمد على نموذج الترانسفورمر (Transformer) لتقدير معاملات نموذج SMPL. ويساهم الوسيط المكمل، وهو تدفق البصر، في الحفاظ على الاتساق الزمني من خلال الاستفادة من معرفة الحركة بين الإطارات المتتالية. وقد تم تقييم الخوارزمية المقترحة بشكل واسع على مجموعتي بيانات Human3.6 و3DPW. وأظهرت النتائج التجريبية أنها تتفوّق على الطرق الرائدة الأخرى بفارق كبير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp