التحسين القائم على التوافق لتقدير وضعية الإنسان ثلاثية الأبعاد في إحداثيات الكاميرا

يُعتبر تقدير وضعية الإنسان الثلاثية الأبعاد (3D human pose estimation) عادةً مهمة تقدير الوضعية ثلاثية الأبعاد بالنسبة إلى مفصل الجسم الجذري. كخيار بديل، نقترح طريقة لتقدير وضعية الإنسان ثلاثية الأبعاد في إحداثيات الكاميرا، مما يسمح بدمج فعّال بين البيانات ثنائية الأبعاد المُعلَّمة والوضعيات ثلاثية الأبعاد، كما يتيح تعميمًا مباشرًا عبر مناظر متعددة. لتحقيق ذلك، نُصِف المشكلة كتقدير لوضعية في فضاء فرستوم الرؤية (view frustum space)، حيث يتم فصل تنبؤ العمق المطلق عن تقديرات العمق النسبية للعُقد. وتحصل على التوقعات ثلاثية الأبعاد النهائية في إحداثيات الكاميرا من خلال عملية التصوير العكسي (inverse camera projection). بناءً على ذلك، نقدم أيضًا خوارزمية تحسين تعتمد على التوافق (consensus-based optimization) للتنبؤات متعددة المناظر من صور غير مُحدَّدة (uncalibrated images)، والتي تتطلب إجراء تدريب وحيد من نوع مونوكولار (monocular). وعلى الرغم من أن طريقة العمل لدينا مرتبطة بشكل غير مباشر بمعاملات الكاميرا الداخلية المستخدمة في التدريب، فإنها لا تزال تُظهر تقاربًا حتى عند استخدام كاميرات ذات معاملات داخلية مختلفة، مما يؤدي إلى تقديرات متسقة حتى مع عامل مقياس (up to a scale factor). وقد حققت طريقتنا تحسنًا ملحوظًا على أبرز مجموعات بيانات تقدير الوضعية ثلاثية الأبعاد، حيث قلّلت من خطأ التنبؤ بنسبة 32% في المعيار الشائع جدًا. كما أبلغنا عن نتائجنا باستخدام خطأ موضع الوضعية المطلقة (absolute pose position error)، حيث بلغ متوسط الخطأ 80 مم في التقديرات المونوكولار، و51 مم في التقديرات متعددة المناظر.