تقدير وضعية الإنسان ثلاثية الأبعاد من خلال الكاميرا أحادية العدسة في البيئة الحقيقية باستخدام إشراف CNN المحسن

نقترح نهجًا يستند إلى الشبكات العصبية التلافيفية (CNN) لتقدير وضع الجسم البشري ثلاثي الأبعاد من صور RGB أحادية، مما يعالج مشكلة محدودية قابلية تعميم النماذج التي تم تدريبها فقط على البيانات ثلاثية الأبعاد المتاحة بشكل عام والمحدودة بشدة. باستخدام البيانات ثلاثية الأبعاد الموجودة والبيانات ثنائية الأبعاد فقط، نظهر أداءً رائدًا في المعايير المُقَرَّرة من خلال نقل الخصائص المُتَعَلَّمَة، مع القدرة أيضًا على التعميم إلى المشاهد الطبيعية. كما نقدم مجموعة تدريب جديدة لتقدير وضع الجسم البشري من صور أحادية للبشر الحقيقيين، حيث يتم التقاط الحقيقة الأرضية باستخدام نظام متعدد الكاميرات لتتبع الحركة بدون علامات. هذه المجموعة تكمل البيانات الموجودة بتنوع أكبر في الوضعيات، ومظهر البشر، والملابس، والإخفاء، ووجهات النظر، وتتيح نطاقًا أوسع للزيادة. بالإضافة إلى ذلك، نسهم في تقديم معيار جديد يغطي المشاهد الخارجية والداخلية، ونثبت أن بياناتنا ثلاثية الأبعاد تظهر أداءً أفضل في المشاهد الطبيعية مقارنة بالبيانات المُشْرَحَة الموجودة، والتي تتحسن أكثر عند استخدامها مع التعلم المنقول من البيانات ثنائية الأبعاد. عمومًا، نؤكد أن استخدام التعلم المنقول للتمثيلات بالتوازي مع المساهمات الخوارزمية والبيانات أمر حاسم لتحقيق تقدير وضع الجسم ثلاثي الأبعاد بشكل عام.