الاستدلال على الوضع الثلاثي الأبعاد لعدة أشخاص في المشاهد المزدحمة بناءً على الهندسة المتعددة الأنظار

تُمثّل القيود الإبيبولارية جوهر عملية مطابقة الميزات وتقدير العمق في الطرق الحالية لتقدير وضعية الإنسان ثلاثية الأبعاد متعددة الأشخاص عبر كاميرات متعددة. وعلى الرغم من الأداء المرضي لهذه الصيغة في المشاهد ذات الكثافة المنخفضة للأشخاص، فإن فعاليتها تُحدّث بشكل متكرر في الظروف الكثيفة لل人群، وذلك أساسًا بسبب مصدرين للغموض. الأول هو حدوث تطابق خاطئ بين مفاصل الأشخاص ناتج عن الاستخدام البسيط للإشارات التي توفرها المسافات الإقليدية بين المفاصل والخطوط الإبيبولارية. والثاني هو قلة المرونة الناتجة عن الصيغة البسيطة للمشكلة كمُحسَّن لحد أدنى مربعات. في هذه الورقة، نبتعد عن صيغة تقدير الوضعية ثلاثية الأبعاد للأشخاص المتعددين، ونعيد صياغتها كمشكلة لتقدير وضعية الحشود. يتكون منهجنا من مكوّنين رئيسيين: نموذج رسم بياني لعملية مطابقة سريعة بين الرؤى المختلفة، ومحسّن ماكسيموم بايزي (MAP) لإعادة بناء الوضعيات ثلاثية الأبعاد للإنسان. ونُظهر فعالية وتفوّق المنهج المقترح على أربع مجموعات بيانات معيارية.