HyperAIHyperAI
منذ 17 أيام

استنتاج عمقي ثنائي التدفق للفيديو لتقدير وضعية وشكل الجسم البشري

Ziwen Li, Bo Xu, Han Huang, Cheng Lu, Yandong Guo
استنتاج عمقي ثنائي التدفق للفيديو لتقدير وضعية وشكل الجسم البشري
الملخص

تم اقتراح العديد من الخوارزميات القائمة على الفيديو لتقدير وضعية وشكل الجسم البشري ثلاثي الأبعاد بهدف معالجة عدم الاتساق الزمني في الطرق القائمة على الصورة الواحدة. ومع ذلك، لا يزال من الصعب تحقيق إعادة بناء مستقرة ودقيقة. في هذه الورقة، نقترح إطارًا جديدًا يُسمى Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation (DTS-VIBE)، والذي يُنتج وضعية وشبكة ثلاثية الأبعاد للجسم البشري من مقاطع الفيديو الملونة (RGB). نعيد صياغة المهمة كمشكلة متعددة الوسائط، حيث يتم دمج الصور الملونة (RGB) مع تدفق بصري (optical flow) لتحقيق تقدير أكثر موثوقية. وللاستفادة الكاملة من كلا نوعي البيانات الحسية (RGB أو تدفق بصري)، نُدرّب شبكة زمنية ذات تدفقين تعتمد على نموذج الترانسفورمر (Transformer) لتقدير معاملات نموذج SMPL. ويساهم الوسيط المكمل، وهو تدفق البصر، في الحفاظ على الاتساق الزمني من خلال الاستفادة من معرفة الحركة بين الإطارات المتتالية. وقد تم تقييم الخوارزمية المقترحة بشكل واسع على مجموعتي بيانات Human3.6 و3DPW. وأظهرت النتائج التجريبية أنها تتفوّق على الطرق الرائدة الأخرى بفارق كبير.