تعلم إعادة بناء وضعية وشكل الإنسان ثلاثي الأبعاد من خلال مطابقة النموذج في الحلقة

التقدير النموذجي لموقف الإنسان يتم التعامل معه حاليًا من خلال نمطين مختلفين. تتناسب الطرق القائمة على التحسين نموذج جسم معلمي مع الملاحظات ثنائية الأبعاد بطريقة تكرارية، مما يؤدي إلى توافق دقيق بين الصورة والنموذج، ولكنها غالبًا ما تكون بطيئة وحساسة للبداية. في المقابل، تميل الطرق القائمة على الانحدار، التي تستعمل شبكة عميقة لتقدير معلمات النموذج مباشرة من البكسلات، إلى تقديم نتائج معقولة ولكن ليست دقيقة للبكسل الواحد وتتطلب كميات ضخمة من الرقابة. في هذا العمل، بدلاً من دراسة أي نهج أفضل، فإن فهمنا الأساسي هو أن النمطين يمكنهما تشكيل تعاون قوي. يمكن أن يبدأ تقدير معقول ومباشر من الشبكة عملية التحسين التكراري يجعل التناسب أسرع وأكثر دقة. وبالمثل، يمكن أن يعمل تناسب دقيق للبكسل الواحد من التحسين التكراري كرقابة قوية للشبكة. هذا هو جوهر نهجنا المقترح SPIN (SMPL oPtimization IN the loop). تقوم الشبكة العميقة بإعداد روتين تحسين تكراري يتناسب فيه نموذج الجسم مع المفاصل ثنائية الأبعاد داخل حلقة التدريب، ويتم استخدام التقدير المناسب لاحقًا لإشراف الشبكة. نهجنا طبيعيًا ذاتي التحسين، حيث يمكن أن يؤدي تقدير أفضل للشبكة إلى حلول أفضل للتحسين بينما توفر تناسقات أكثر دقة للتوفيق إشرافًا أفضل للشبكة. نثبت فعالية نهجنا في بيئات مختلفة حيث يكون الحقيقة الأرضية ثلاثية الأبعاد نادرة أو غير متاحة، ونتفوق باستمرار على أحدث أساليب التقدير النموذجية لموقف الإنسان بمargins كبيرة. يمكن العثور على موقع المشروع مع مقاطع الفيديو والنتائج والكود على الرابط: https://seas.upenn.edu/~nkolot/projects/spin.请注意,"margins" 一词在阿拉伯语中没有直接对应的科技术语,因此我将其翻译为 "هامش"。如果需要更具体的术语,请告知。