تقدير الوضع ثلاثي الأبعاد للإنسان من خلال التوليد والترتيب الordinal

تقدير وضعية الإنسان ثلاثية الأبعاد من الصور الثابتة باستخدام كاميرا واحدة هو مشكلة صعبة، نظرًا للعنة البعدية وطبيعة رفع البيانات من بعدين إلى ثلاثة أبعاد التي تكون غير محددة بشكل جيد. في هذا البحث، نقترح نموذجًا يعتمد على الترميز التلقائي المتغير الشرطي العميق (Deep Conditional Variational Autoencoder) والذي يقوم بتوليد عينات متنوعة ومتوافقة تشريحياً لوضعيات الجسم ثلاثية الأبعاد مشروطة بالوضعية ثنائية الأبعاد المقدرة. نوضح أن مجموعة العينات ثلاثية الأبعاد المستندة إلى CVAE متسقة مع الوضعية ثنائية الأبعاد وتساعد في التعامل مع الغموض الداخلي في عملية الرفع من بعدين إلى ثلاثة أبعاد. نقترح استراتيجيتين للحصول على الوضعية النهائية ثلاثية الأبعاد: (أ) العلاقات الترتيبية للعمق لتقييم وتوزيع متوسط للأوضاع المرشحة الثلاثية الأبعاد، والتي تُعرف باسم OrdinalScore، و(ب) تحت إشراف Oracle. نبلغ عن نتائج قريبة من أفضل النتائج الحالية على قاعدتي بيانات معياريتين باستخدام OrdinalScore، وعن أفضل النتائج الحالية باستخدام Oracle. كما نوضح أن خط أنابيبنا يحقق نتائج تنافسية دون الحاجة إلى تسميات متزامنة بين الصور والوضعيات ثلاثية الأبعاد. شفرة التدريب والتقييم متاحة على الرابط:https://github.com/ssfootball04/generative_pose.关键词:- تقدير وضعية الإنسان ثلاثية الأبعاد (Monocular 3D human-pose estimation)- الصور الثابتة (static images)- العنة البعدية (curse of dimensionality)- رفع البيانات من بعدين إلى ثلاثة أبعاد (lifting 2D-to-3D)- الترميز التلقائي المتغير الشرطي العميق (Deep Conditional Variational Autoencoder)- Oracle- OrdinalScore- العلاقات الترتيبية للعمق (depth-ordering/ordinal relations)