التدريب الصناعي لتقدير وضعية الجسم وشكله ثلاثي الأبعاد بدقة في البيئة الطبيعية

يتناول هذا البحث مشكلة تقدير الشكل والوضع ثلاثي الأبعاد للإنسان من صورة RGB أحادية العدسة. على الرغم من التقدم الكبير في هذا المجال فيما يتعلق بدقة تنبؤ الوضع، فإن أفضل الأساليب الحالية غالباً ما تتوقع أشكال الجسم بشكل غير دقيق. نقترح أن السبب الرئيسي لهذا يكمن في ندرة البيانات التدريبية الطبيعية التي تحتوي على تسميات دقيقة ومتنوعة لأشكال الجسم. لذلك، نقترح نظام STRAPS (التدريب الصناعي للحصول على تنبؤات دقيقة بالشكل والوضع الفعلي)، وهو نظام يستخدم تمثيلات بديلة مثل المظاهر المحيطية (silhouettes) والمفاصل ثنائية الأبعاد كمدخلات لشبكة عصبية تقوم بتقدير الشكل والوضع، والتي يتم تدريبها باستخدام بيانات تدريب صناعية (تُولَّد فورياً أثناء التدريب باستخدام نموذج الجسم الإحصائي SMPL) للتغلب على نقص البيانات. نقوم بسد الفجوة بين مدخلات التدريب الصناعية والمدخلات الحقيقية الضوضائية، التي يتم توقعها بواسطة شبكات CNN للكشف عن النقاط الرئيسية والتقطيع في وقت الاختبار، من خلال استخدام زيادة البيانات وإفسادها أثناء التدريب. لتقديم تقييم لنهجنا، قمنا بإعداد وتقديم مجموعة بيانات تحدي لتقييم تقدير الشكل البشري أحادي العدسة، وهي Sports Shape and Pose 3D (SSP-3D). تتكون هذه المجموعة من بيانات RGB لممارسي الرياضة الذين يرتدون ملابس ضيقة ومتنوعة الأشكال الجسدية، مع معلمات شكل ووضع SMPL المرتبطة بها والتي تم الحصول عليها عبر الأمثلة متعددة الإطارات. نظهر أن نظام STRAPS يتفوق على الأساليب الأخرى الرائدة في SSP-3D فيما يتعلق بدقة تقدير الشكل، بينما يظل تنافسياً مع أفضل الأساليب الحالية في مجموعات البيانات والمقياس التي تعتمد على الوضع.