SimpleEgo: التنبؤ بوضع الجسم الاحتمالي من كاميرات النقطة الذاتية

يعالج عملنا مشكلة تقدير وضعية الإنسان المركزة على الذات من كاميرات موجهة للأسفل على الأجهزة المرتبكة على الرأس (HMD). وهذا يشكل سيناريوً صعبًا، حيث تقع أجزاء من الجسم غالبًا خارج الصورة أو تكون مغطاة. حاولت الحلول السابقة تقليل هذه المشكلة باستخدام عدسات الكاميرات العين السمكة لالتقاط مجال رؤية أوسع، ولكن هذا قد يؤدي إلى مشاكل في تصميم الأجهزة. كما أنها تتوقع خرائط حرارية ثنائية الأبعاد لكل مفصل وترفعها إلى الفضاء ثلاثي الأبعاد للتعامل مع التغطيات الذاتية، ولكن هذا يتطلب هياكل شبكات كبيرة غير عملية للتطبيق على الأجهزة المرتبكة على الرأس ذات الموارد المحدودة. نتنبأ بوضعية الجسم من الصور التي تم التقاطها باستخدام عدسات الكاميرات المستقيمة التقليدية. وهذا يحل مشاكل تصميم الأجهزة، ولكنه يعني أن أجزاء الجسم غالبًا ما تكون خارج الإطار. لذلك، نقوم بتقدير دوران المفاصل الاحتمالي مباشرةً ممثلةً بتوزيعات فيشر المصفوفية لموديل الجسم المعين. هذا يسمح لنا بقياس عدم اليقين في وضعية الجسم وتفسير المفاصل خارج الإطار أو المغطاة. كما أنه يزيل الحاجة لحساب الخرائط الحرارية ثنائية الأبعاد ويتيح استخدام هياكل شبكات عصبية عميقة (DNN) مبسطة تتطلب حسابًا أقل. نظرًا لنقص البيانات المركزية على الذات التي تستخدم عدسات الكاميرات المستقيمة، قمنا بتقديم مجموعة بيانات SynthEgo، وهي مجموعة بيانات اصطناعية تحتوي على 60 ألف صورة استريو ذات تنوع كبير في وضعية الجسم، الشكل، الملابس ولون البشرة. حققت طريقتنا نتائجًا رائدة لهذا التكوين الصعب، حيث خفضت خطأ الموقع المتوسط لكل مفصل بنسبة 23% بشكل عام و58% للجسم السفلي. كما أن هيكمنا لديه ثمانية أضعاف القليل من المعالم ويعمل بمعدل ضعف سرعة أفضل الحلول الحالية. تظهر التجارب أن التدريب على مجموعة البيانات الاصطناعية الخاصة بنا يؤدي إلى تعميم جيد للصور الحقيقية دون ضبط دقيق.