تقدير الوضعية ثلاثية الأبعاد للإنسان المركزي مع وعي بالمشهد

تقدير وضع الإنسان المركزي ثلاثي الأبعاد باستخدام كاميرا واحدة مثبتة على الرأس ذات الزاوية العريضة (fisheye) جذب مؤخرًا الانتباه بسبب تطبيقاته العديدة في الواقع الافتراضي والواقع المعزز. لا تزال الأساليب الحالية تعاني في الأوضاع الصعبة حيث يكون جسم الإنسان شديد الإخفاء أو يتفاعل عن كثب مع المشهد. لحل هذه المشكلة، نقترح طريقة تقدير وضع مركزي واعية للمشهد توجه التنبؤ بوضع الجسم المركزي باستخدام قيود المشهد. لهذا الغرض، نقترح شبكة تقدير عمق مركزية تتنبأ بخريطة العمق للمشهد من خلال كاميرا زاوية عريضة مركزية ذات رؤية واسعة بينما تعمل على تخفيف إخفاء جسم الإنسان باستخدام شبكة إكمال العمق (depth-inpainting). بعد ذلك، نقترح شبكة تقدير وضع واعية للمشهد تقوم بإسقاط خصائص الصورة ثنائية الأبعاد وخريطة العمق المتوقعة للمشهد في فضاء الفوكسلات (voxel space) وتقوم بتقدير وضع ثلاثي الأبعاد باستخدام شبكة V2V. تمثل خصائص الفوكسلات الارتباط الهندسي المباشر بين خصائص الصورة ثنائية الأبعاد وهندسة المشهد، مما يساعد الشبكة V2V بشكل أكبر على تحديد الوضع المتوقع بناءً على هندسة المشهد المتوقعة. لتمكين تدريب الشبكات المذكورة أعلاه، قمنا أيضًا بإنشاء مجموعة بيانات مصنعة تُعرف باسم EgoGTA ومجموعة بيانات حقيقية مستوحاة من EgoPW وتُعرف باسم EgoPW-Scene. تظهر نتائج الاختبارات التجريبية لأحدث سلاسل التقييم الخاصة بنا أن الأوضاع الثلاثية الأبعاد المركزية المتوقعة دقيقة ومعقولة من الناحية الفيزيائية فيما يتعلق بالتفاعل بين الإنسان والمشهد، مما يدل على أن طرقنا تتفوق على أفضل الأساليب الحالية بشكل كمي وكيفي.