شبكات الوضع متعدد المثيلات: إعادة التفكير في تقدير الوضع من الأعلى إلى الأسفل

الافتراض الرئيسي في النماذج العلوية-السفلية لتقدير وضعية الإنسان هو توقع وجود شخص واحد فقط/مثيل واحد داخل الصندوق المحيط المدخل. وغالبًا ما يؤدي هذا إلى فشل النماذج في المشاهد المزدحمة التي تشهد تداخلًا (إغلاقًا جزئيًا). نقترح حلًا جديدًا للتغلب على قيود هذا الافتراض الأساسي. يتيح لنا شبكة وضعية المثيلات المتعددة (MIPNet) التنبؤ بعدة حالات لوضعية ثنائية الأبعاد داخل صندوق محيط معين. نقدّم بلوك تضمين المثيلات المتعددة (MIMB)، الذي يمكنه تعديل استجابات الميزات حسب القنوات بشكل تكيفي لكل مثيل، مع الحفاظ على كفاءة في عدد المعاملات. نُظهر فعالية نهجنا من خلال تقييمه على مجموعات بيانات COCO وCrowdPose وOCHuman. وبشكل خاص، نحقق 70.0 AP على مجموعة اختبار CrowdPose و42.5 AP على مجموعة اختبار OCHuman، أي تحسنًا كبيرًا بنسبة 2.4 AP و6.5 AP مقارنة بالحلول السابقة على التوالي. وعند استخدام الصناديق المحيطة الحقيقية (ground truth) أثناء الاستدلال، تُظهر MIPNet تحسنًا بنسبة 0.7 AP على COCO و0.9 AP على CrowdPose و9.1 AP على مجموعات التحقق من OCHuman مقارنة بـ HRNet. ومن المثير للاهتمام أن استخدام عدد أقل من الصناديق المحيطة ذات ثقة عالية يؤدي إلى تدهور أداء HRNet (بمقدار 5 AP) على OCHuman، بينما تُبقي MIPNet أداءها مستقرًا نسبيًا (انخفاض بنسبة 1 AP) لنفس المدخلات.