الإغلاق العشوائي ثلاثي الأبعاد والتقسيم متعدد الطبقات لتحديد موقع المشاة بعمق باستخدام كاميرات متعددة

رغم التقدم الكبير الذي أحرزته طرق الكشف عن المشاة باستخدام الصور الأحادية القائمة على التعلم العميق، فإنها لا تزال عرضة للحجب الشديد. يعتبر استخدام تكامل المعلومات من عدة زوايا رؤية حلاً محتملاً، ولكنه يواجه تطبيقات محدودة بسبب نقص العينات التدريبية المصحوبة بالشروح في مجموعات البيانات المتعددة الزوايا، مما يزيد خطر الانعراج الزائد (overfitting). لحل هذه المشكلة، تم اقتراح طريقة تعزيز البيانات لإنشاء انسدادات أسطوانية ثلاثية الأبعاد بشكل عشوائي على مستوى الأرض، والتي تكون بحجم متوسط المشاة وتصبح مرئية في عدة زوايا رؤية، وذلك لتخفيف تأثير الانعراج الزائد أثناء التدريب. بالإضافة إلى ذلك، يتم إسقاط خريطة الميزات لكل زاوية رؤية على عدة مستويات متوازية مختلفة الارتفاع باستخدام التجانس (homographies)، مما يسمح للشبكات العصبية المعمقة باستغلال الميزات عبر ارتفاع كل مشاة لاستنتاج مواقع المشاة على مستوى الأرض. أظهرت الطريقة المقترحة 3DROM تحسناً كبيراً في الأداء مقارنة بأحدث الطرق القائمة على التعلم العميق للكشف عن المشاة من عدة زوايا رؤية.