تعلم وضعية الجسم البشري ثلاثية الأبعاد بطريقة شبه مراقبة عبر صور متعددة الزوايا في البيئة الحقيقية

تُعدّ إحدى التحديات الرئيسية في تقدير الوضع ثلاثي الأبعاد للإنسان باستخدام الكاميرا المونوكولار (الكاميرا أحادية العين) في بيئات حقيقية هو الحصول على بيانات تدريب تحتوي على صور غير مقيدة مصحوبة بAnnotations دقيقة للوضع ثلاثي الأبعاد. في هذا البحث، نعالج هذا التحدي من خلال اقتراح نهج شبه مشرف (weakly-supervised) لا يتطلب Annotations ثلاثية الأبعاد ويتعلم تقدير الوضع ثلاثي الأبعاد من بيانات متعددة الزوايا غير مصنفة، والتي يمكن الحصول عليها بسهولة في بيئات حقيقية. نقترح إطارًا تعليميًا جديدًا يمتد من البداية إلى النهاية يمكّن التدريب شبه المشرف باستخدام توافق متعدد الزوايا (multi-view consistency). بما أن التوافق متعدد الزوايا عرضة للحلول المتدهورة (degenerated solutions)، فقد اعتمدنا تمثيل وضع 2.5D واقترحنا دالة هدف جديدة يمكن تقليلها فقط عندما تكون توقعات النموذج المدرب متسقة ومعقولة عبر جميع زوايا الكاميرات. قمنا بتقييم نهجنا المقترح على قاعدتين كبيرتين للبيانات (Human3.6M و MPII-INF-3DHP) حيث حقق أفضل الأداء بين الأساليب شبه-/شبه المشرفة (semi-/weakly-supervised).