الإشراف على العمق الترتيبي لتقدير وضع الجسم البشري ثلاثي الأبعاد

قدرة تدريب الأنظمة الشاملة لتقدير وضع الإنسان ثلاثي الأبعاد من صور فردية محدودة حاليًا بسبب نقص توافر التسميات ثلاثية الأبعاد للصور الطبيعية. معظم المجموعات يتم التقاطها باستخدام أنظمة التقاط الحركة (MoCap) في بيئة الاستوديو، ويعتبر من الصعب تحقيق التنوع الموجود في مجموعات البيانات ثنائية الأبعاد مثل MPII أو LSP. لحل مشكلة الحاجة إلى بيانات حقيقية دقيقة ثلاثية الأبعاد، نقترح استخدام إشارة إشراف أضعف تقدمها العمق الترتيبي للمفاصل البشرية. يمكن الحصول على هذه المعلومات من قبل مصنفي البشر لمجموعة واسعة من الصور والأوضاع. نعرض فعالية ومرونة تدريب شبكات الالتواء (ConvNets) بهذه العلاقات الترتيبية في بيئات مختلفة، مع دائمًا تحقيق أداء تنافسي يماثل أداء شبكات الالتواء التي تم تدريبها باستخدام إحداثيات المفاصل الدقيقة ثلاثية الأبعاد. بالإضافة إلى ذلك، لإثبات إمكانات هذا النهج، قمنا بإضافة تسميات عمق ترتيبي لمجموعتي البيانات الشهيرتين LSP وMPII. يسمح هذا الإضافة بتقديم تقييم كمي وكيفي في ظروف غير استوديو. وفي الوقت نفسه، يمكن دمج هذه التسميات الترتيبية بسهولة في عملية التدريب الخاصة بالشبكات النموذجية الالتوائية لوضع الإنسان ثلاثي الأبعاد. من خلال هذا الدمج، نحقق أداءً جديدًا رائدًا للمعايير ذات الصلة ونؤكد فعالية الإشراف بالعمق الترتيبي لوضع الإنسان ثلاثي الأبعاد.