الاستدلال على وضع الإنسان ثلاثي الأبعاد لعدة أشخاص من صور مفردة

تقدير وضعية الإنسان ثلاثية الأبعاد لعدة أشخاص من صورة واحدة هو مشكلة صعبة، خاصة في البيئات الطبيعية (in-the-wild) نظرًا لقلة البيانات المُعلَّمة ثلاثية الأبعاد. نقترح شبكة تُسمى HG-RCNN، وهي شبكة مستندة إلى Mask-RCNN وتستفيد أيضًا من مزايا البنية المعمارية للساعة الرملية (Hourglass) لتقدير وضعية الإنسان ثلاثية الأبعاد لعدة أشخاص. نقدم نهجًا مكوّنًا من مرحلتين: في المرحلة الأولى، يتم تقدير النقاط المفتاحية ثنائية الأبعاد داخل كل منطقة اهتمام (RoI)، ثم تُرفع هذه النقاط المقدرة إلى الأبعاد الثلاثية في المرحلة الثانية. أخيرًا، يتم وضع الوضعيات ثلاثية الأبعاد المقدرة في نظام الإحداثيات الكاميرية باستخدام افتراض التمثيل الضعيف (weak-perspective projection) وتحسين مشترك لطول البؤري ونقل الجذر (root translations). النتيجة هي شبكة بسيطة وقابلة للتكوين لتقدير وضعية الإنسان ثلاثية الأبعاد لعدة أشخاص، دون الحاجة إلى أي مجموعة بيانات ثلاثية الأبعاد لعدة أشخاص. وعلى الرغم من بساطة صيغتها، تحقق HG-RCNN أداءً متميزًا على مجموعة بيانات MuPoTS-3D، كما تُقدِّم تقريبًا دقيقًا للوضعية ثلاثية الأبعاد في نظام الإحداثيات الكاميرية.