تقدير الشكل والوضع البشري ثلاثي الأبعاد من صور متعددة غير مقيدة في البيئة الحقيقية

يتناول هذا البحث مشكلة تقدير شكل الجسم البشري ووضعه في ثلاثية الأبعاد من صور RGB. وقد ركز التقدم الحديث في هذا المجال على الصور الفردية، الفيديو أو الصور متعددة الزوايا كمدخلات. بخلاف ذلك، نقترح مهمة جديدة: تقدير الشكل والوضع من مجموعة من الصور المتعددة لموضوع بشري، دون قيود على وضع الموضوع، زاوية الكاميرا أو ظروف الخلفية بين الصور في المجموعة. حلنا لهذه المهمة يتوقع توزيعات على معلمات شكل الجسم ووضعيته في نموذج SMPL (Shape Model Parameterized by Learned) بناءً على الصور المدخلة في المجموعة. نجمع بشكل احتمالي التوزيعات المتوقعة لشكل الجسم من كل صورة للحصول على تنبؤ نهائي بالشكل متعدد الصور. نظهر أن المعلومات الإضافية عن شكل الجسم الموجودة في مجموعات المدخلات متعددة الصور تحسن مقاييس تقدير الشكل البشري ثلاثي الأبعاد مقارنة بالمدخلات الفردية للصور على مجموعة بيانات SSP-3D ومجموعة بيانات خاصة للموضوعات البشرية المقاسة بالشريط القياس. بالإضافة إلى ذلك، فإن توقع التوزيعات على الأجسام ثلاثية الأبعاد يسمح لنا بتقييم عدم اليقين في تنبؤ الوضع، وهو ما يكون مفيدًا عند التعامل مع صور مدخل صعبة تحتوي على إخفاء كبير. يوضح أسلوبنا عدم اليقين المعنى للوضع على مجموعة بيانات 3DPW ويتنافس مع أفضل الأساليب الحالية من حيث مقاييس تقدير الوضع.