VoxelTrack: التقدير والتعقب ثلاثي الأبعاد للوضعية البشرية لعدة أشخاص في البيئة البرية

نقدّم VoxelTrack لتقدير وتعقب الوضعية ثلاثية الأبعاد لعدة أشخاص من خلال عدد قليل من الكاميرات المتباعدة بمسافات واسعة (wide baselines). يعتمد النموذج على شبكة متعددة الفروع لتقدير الوضعية ثلاثية الأبعاد وسمات التعرف على الهوية (Re-ID) بشكل مشترك لكل الأشخاص في البيئة. على عكس الجهود السابقة التي تتطلب إقامة تقابل بين الرؤى المختلفة بناءً على تقديرات ثنائية الأبعاد غير دقيقة، يقوم VoxelTrack باستخلاص وتعقب الوضعية ثلاثية الأبعاد مباشرةً من تمثيل ثلاثي الأبعاد مبني على مكعبات (voxel) تم بناؤه من صور متعددة الزوايا. نقوم أولًا بتمثيل الفضاء ثلاثي الأبعاد عبر مكعبات منتظمة، ثم نحسب متجهًا مميزًا لكل مكعب عن طريق تجميع خرائط الحرارة للعُقد الجسدية التي تُعاد تProjected عكسيًا من جميع الزوايا. نُقدّر الوضعية ثلاثية الأبعاد من خلال التنبؤ بوجود عقدة جسدية محددة داخل كل مكعب. وبالمثل، نحسب ميزة Re-ID لكل مكعب تُستخدم لتعقب الوضعية ثلاثية الأبعاد المقدرة عبر الزمن. يتميّز هذا النهج بقدرته على تجنّب اتخاذ قرارات صارمة مبنية على صور فردية، مما يمكّنه من تقدير وتعقب الوضعية ثلاثية الأبعاد بشكل موثوق حتى في حالات الاختباء الشديد للأشخاص في بعض الكاميرات. وقد أظهر الأداء تفوقًا كبيرًا على أحدث الطرق المنشورة في ثلاث مجموعات بيانات عامة، تشمل Shelf وCampus وCMU Panoptic.