تقدير الوضع البشري ثلاثي الأبعاد ذاتي الإشراف عبر توليف صور جديدة موجهة بالجزء

التقاط وضعية الإنسان بواسطة الكاميرا هو نتيجة لمصادر متعددة للتنوع. أداء نماذج تقدير الوضع ثلاثي الأبعاد المراقبة يأتي على حساب التخلي عن مصادر تنوع، مثل الشكل والمظهر، التي قد تكون مفيدة لحل مهام ذات صلة أخرى. نتيجة لذلك، فإن النموذج المتعلم يكتسب ليس فقط تحيزًا للمهمة ولكن أيضًا تحيزًا لمجموعة البيانات بسبب اعتماده القوي على العينات المصحوبة بالشروحات، وهذا صحيح أيضًا بالنسبة للنماذج شبه المراقبة. معترفين بذلك، نقترح إطارًا للتعلم الذاتي لفصل هذه المصادر من الإطارات الفيديو غير المصحوبة بالشروحات. نستفيد من المعرفة السابقة حول الهيكل العظمي للإنسان والوضعيات في صورة نموذج دُمية ثنائية الأبعاد قائم على الجزء الواحد (part-based 2D puppet model)، وقيود ترتيب وضعية الإنسان (human pose articulation constraints)، ومجموعة من الوضعيات ثلاثية الأبعاد غير المرتبطة (unpaired 3D poses). يساعدنا التحقيق الرصدي لدينا، الذي يربط الفجوة بين تمثيل الوضع ثلاثي الأبعاد وخرائط الأجزاء المكانية (spatial part maps)، ليس فقط في اكتشاف فصل الوضع القابل للتفسير ولكن أيضًا في السماح لنا بمعالجة الفيديوهات ذات الحركات الكاميرية المتباينة. تثبت النتائج النوعية على مجموعات بيانات جديدة وغير مراقبة تفوق تعميمنا عبر مهام متعددة خارج المهام الأساسية لتقدير الوضع ثلاثي الأبعاد وتقسيم الأجزاء (part segmentation). بالإضافة إلى ذلك، نوضح أداء تقدير الوضع ثلاثي الأبعاد شبه المراقب الأكثر تقدمًا على كل من مجموعتي البيانات Human3.6M و MPI-INF-3DHP.