Command Palette
Search for a command to run...
الاستدلال على وضع الإنسان ثلاثي الأبعاد لعدة أشخاص من صور مفردة
الاستدلال على وضع الإنسان ثلاثي الأبعاد لعدة أشخاص من صور مفردة
Rishabh Dabral Nitesh B Gundavarapu Rahul Mitra Abhishek Sharma Ganesh Ramakrishnan Arjun Jain
الملخص
تقدير وضعية الإنسان ثلاثية الأبعاد لعدة أشخاص من صورة واحدة هو مشكلة صعبة، خاصة في البيئات الطبيعية (in-the-wild) نظرًا لقلة البيانات المُعلَّمة ثلاثية الأبعاد. نقترح شبكة تُسمى HG-RCNN، وهي شبكة مستندة إلى Mask-RCNN وتستفيد أيضًا من مزايا البنية المعمارية للساعة الرملية (Hourglass) لتقدير وضعية الإنسان ثلاثية الأبعاد لعدة أشخاص. نقدم نهجًا مكوّنًا من مرحلتين: في المرحلة الأولى، يتم تقدير النقاط المفتاحية ثنائية الأبعاد داخل كل منطقة اهتمام (RoI)، ثم تُرفع هذه النقاط المقدرة إلى الأبعاد الثلاثية في المرحلة الثانية. أخيرًا، يتم وضع الوضعيات ثلاثية الأبعاد المقدرة في نظام الإحداثيات الكاميرية باستخدام افتراض التمثيل الضعيف (weak-perspective projection) وتحسين مشترك لطول البؤري ونقل الجذر (root translations). النتيجة هي شبكة بسيطة وقابلة للتكوين لتقدير وضعية الإنسان ثلاثية الأبعاد لعدة أشخاص، دون الحاجة إلى أي مجموعة بيانات ثلاثية الأبعاد لعدة أشخاص. وعلى الرغم من بساطة صيغتها، تحقق HG-RCNN أداءً متميزًا على مجموعة بيانات MuPoTS-3D، كما تُقدِّم تقريبًا دقيقًا للوضعية ثلاثية الأبعاد في نظام الإحداثيات الكاميرية.