تعلم تقدير وضع الجسم البشري وشكله ثلاثي الأبعاد من صورة ملونة واحدة

يتناول هذا العمل مشكلة تقدير الوضع والشكل ثلاثي الأبعاد للجسم البشري بأكمله من صورة ملونة واحدة. هذه هي مهمة كان فيها الحلول القائمة على التحسين التكراري غالبًا ما تتفوق، بينما عانت الشبكات الإدراكية التلافيفية (ConvNets) بسبب نقص بيانات التدريب والتوقعات ثلاثية الأبعاد ذات الدقة المنخفضة. يهدف عملنا إلى جسر هذه الفجوة وتقديم طريقة تنبؤ مباشرة فعالة وكفوءة تعتمد على الشبكات الإدراكية التلافيفية. الجزء المركزي في نهجنا هو دمج نموذج شكل الجسم الإحصائي المعلمي (SMPL) ضمن إطارنا النهائي. هذا يسمح لنا بالحصول على نتائج شبكة ثلاثية الأبعاد مفصلة للغاية، مع الحاجة فقط لتقدير عدد قليل من المعلمات، مما يجعلها مناسبة للتنبؤ المباشر بواسطة الشبكة. بشكل مثير للاهتمام، نثبت أن هذه المعلمات يمكن توقعها بشكل موثوق به فقط من النقاط الرئيسية ثنائية الأبعاد والأقنعة. هذه هي النواتج النموذجية للشبكات الإدراكية التلافيفية العامة لتحليل الإنسان ثنائي الأبعاد، مما يتيح لنا تخفيف متطلب الصور الضخم الذي يتضمن الحقيقة الأرضية ثلاثية الأبعاد المتاحة للتدريب. وفي الوقت نفسه، عن طريق الحفاظ على القابلية للمفاضلة، نولد الشبكة ثلاثية الأبعاد من المعلمات المقدرة ونحسن صراحة السطح باستخدام خسارة رأس لكل رأس ثلاثي الأبعاد. أخيرًا، يتم استخدام محرك تجهيز قابل للمفاضلة لإسقاط الشبكة ثلاثية الأبعاد على الصورة، مما يمكّن من تحسين الشبكة أكثر عبر تحسين اتساق الإسقاط مع التعليقات ثنائية الأبعاد (أي النقاط الرئيسية ثنائية الأبعاد أو الأقنعة). يتفوق النهج المقترح على خطوط الأساس السابقة في هذه المهمة ويقدم حلًا جاذبًا للتنبؤ المباشر بالشكل الثلاثي الأبعاد من صورة ملونة واحدة.