BodyNet: الاستدلال الحجمي على أشكال الجسم البشري ثلاثية الأبعاد

تقدير شكل الإنسان هو مهمة مهمة في تحرير الفيديو والرسوم المتحركة وصناعة الموضة. ومع ذلك، فإن التنبؤ بشكل الجسم البشري ثلاثي الأبعاد من الصور الطبيعية يعد تحديًا كبيرًا بسبب عوامل مثل اختلاف الأجسام البشرية والملابس وزاوية الرؤية. الطرق السابقة التي تعاملت مع هذه المشكلة غالبًا ما حاولت مطابقة نماذج الجسم المعلمة مع بعض الافتراضات حول وضعية الجسم وشكله. في هذا العمل، ندافع عن تمثيل بديل ونقترح BodyNet، وهو شبكة عصبية لاستدلال مباشر على الشكل الحجمي للجسم من صورة واحدة فقط. BodyNet هي شبكة قابلة للتدريب من النهاية إلى النهاية تستفيد من (i) خسارة حجمية ثلاثية الأبعاد، (ii) خسارة إعادة الإسقاط متعددة الزوايا، و (iii) إشراف وسيط على وضعية الجسم ثنائية الأبعاد، وتقسيم أجزاء الجسم ثنائية الأبعاد، ووضعية الجسم ثلاثية الأبعاد. كل منها يؤدي إلى تحسين الأداء كما أظهرت تجاربنا. لتقييم الطريقة، نقوم بمطابقة نموذج SMPL لمخرجات شبكتنا ونعرض نتائجًا رائدة في مجال البحث على مجموعات البيانات SURREAL و Unite the People، مما يتفوق على الأساليب الحديثة. بالإضافة إلى تحقيق أفضل الأداء الحالي، تمكن طرقنا أيضًا تقسيم أجزاء الجسم الحجمي.