استنتاج عمقي ثنائي التدفق للفيديو لتقدير وضعية وشكل الجسم البشري

تم اقتراح العديد من الخوارزميات القائمة على الفيديو لتقدير وضعية وشكل الجسم البشري ثلاثي الأبعاد بهدف معالجة عدم الاتساق الزمني في الطرق القائمة على الصورة الواحدة. ومع ذلك، لا يزال من الصعب تحقيق إعادة بناء مستقرة ودقيقة. في هذه الورقة، نقترح إطارًا جديدًا يُسمى Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation (DTS-VIBE)، والذي يُنتج وضعية وشبكة ثلاثية الأبعاد للجسم البشري من مقاطع الفيديو الملونة (RGB). نعيد صياغة المهمة كمشكلة متعددة الوسائط، حيث يتم دمج الصور الملونة (RGB) مع تدفق بصري (optical flow) لتحقيق تقدير أكثر موثوقية. وللاستفادة الكاملة من كلا نوعي البيانات الحسية (RGB أو تدفق بصري)، نُدرّب شبكة زمنية ذات تدفقين تعتمد على نموذج الترانسفورمر (Transformer) لتقدير معاملات نموذج SMPL. ويساهم الوسيط المكمل، وهو تدفق البصر، في الحفاظ على الاتساق الزمني من خلال الاستفادة من معرفة الحركة بين الإطارات المتتالية. وقد تم تقييم الخوارزمية المقترحة بشكل واسع على مجموعتي بيانات Human3.6 و3DPW. وأظهرت النتائج التجريبية أنها تتفوّق على الطرق الرائدة الأخرى بفارق كبير.