VoxelPose: نحو التقدير ثلاثي الأبعاد لوضعية الإنسان باستخدام كاميرات متعددة في البيئات الطبيعية

نقدم نهجًا لتقدير الوضع الثلاثي الأبعاد (3D) لعدة أشخاص من خلال زوايا كاميرات متعددة. على عكس الجهود السابقة التي تتطلب إقامة تطابق بين الزوايا المختلفة بناءً على تقديرات ثنائية الأبعاد (2D) غير دقيقة وغير كاملة، نقدّم حلًا من الطرف إلى الطرف (end-to-end) يعمل مباشرة في الفضاء الثلاثي الأبعاد، وبالتالي يتجنب اتخاذ قرارات خاطئة في الفضاء الثنائي الأبعاد. لتحقيق هذا الهدف، يتم تحويل الميزات من جميع زوايا الكاميرات ودمجها في فضاء ثلاثي أبعاد مشترك، ثم تُقدَّم إلى شبكة اقتراح المكعبات (Cuboid Proposal Network - CPN) لتحديد موضع أولي لجميع الأشخاص. ثم نقترح شبكة استرجاع الوضع (Pose Regression Network - PRN) لتقدير وضع ثلاثي الأبعاد دقيق لكل اقتراح. يتميز هذا النهج بالقدرة على التحمل تجاه التغطية (الإغلاق الجزئي)، وهي حالة شائعة في التطبيقات العملية. وبلا إضافات مُضافة، يتفوق هذا النهج على أفضل النماذج الحالية على مجموعات البيانات العامة. سيتم إصدار الكود على الرابط التالي: https://github.com/microsoft/multiperson-pose-estimation-pytorch.