تقدير الشكل والوضع البشري المُخفي وراء الأشياء من صورة لونية واحدة

الإغلاق بين الإنسان والأجسام، وخاصةً في سياق التفاعلات بين الإنسان والأشياء، شائع جدًا في التطبيقات العملية. ومع ذلك، تتطلب معظم الطرق الحالية لتقدير شكل الإنسان ثلاثي الأبعاد ووضعه (pose) أن تكون أجسام البشر مُلتقطة بشكل جيد دون إغلاقات أو مع إغلاقات ذاتية بسيطة جدًا. في هذه الورقة، نركز على مشكلة تقدير شكل الإنسان ووضعه ثلاثي الأبعاد مباشرةً من صور ألوان واحدة، في حالات الإغلاق الناتجة عن الأشياء. الفكرة الأساسية لدينا تكمن في استخدام خريطة UV جزئية لتمثيل جسم إنسان مُغطى بجسم آخر، بحيث يتم تحويل مشكلة تقدير الشكل ثلاثي الأبعاد الكامل للإنسان في النهاية إلى مشكلة إعادة ترميم الصورة (image inpainting). نقترح بنية شبكة جديدة ذات فرعين لتدريب مُصنِّف متكامل (end-to-end) من خلال إشراف الميزات المُخفية، وتشمل أيضًا شبكة فرعية جديدة لاستخراج خرائط الانتباه (saliency map) لاستخلاص المعلومات البشرية من الصور الملوثة بالإغلاق. ولإشراف تدريب الشبكة، نبني أيضًا مجموعة بيانات جديدة تُسمى 3DOH50K. أُجريت عدة تجارب للكشف عن فعالية الطريقة المقترحة، وأظهرت النتائج التجريبية أن الطريقة المُقترحة تحقق أداءً متفوقًا مقارنة بالطرق السابقة. وتتوفر مجموعة البيانات والكود مفتوحًا للجمهور عبر الرابط: https://www.yangangwang.com.