اكتشاف، تقدير الوضع وتقسيم الأجسام المتعددة: إغلاق الدائرة الفضلى

تُعَدُّ طُرُق تقدير وضعية الإنسان فعّالةً عند التعامل مع الأفراد المعزولين، ولكنها تواجه صعوبات في السيناريوهات التي تتضمن أجسادًا متعددة قريبة من بعضها البعض. قد عالج العمل السابق هذه المشكلة من خلال تكييف تقدير الوضعية بالصناديق الحدودية أو النقاط الرئيسية المكتشفة، ولكنه أغفل أقنعة النماذج الفردية. نقترح فرض التوافق المتبادل بين الصناديق الحدودية وأقنعة النماذج الفردية والوضعيات بشكل تكراري. يستخدم الطريقة المقترحة، والتي تُعرف بـ BBox-Mask-Pose (BMP)، ثلاثة نماذج متخصصة تحسن مخرجاتها في حلقة مغلقة. يتم تعديل جميع النماذج للتكيف المتبادل، مما يعزز المتانة في المشاهد المتعددة الأجساد. يعتبر MaskPose، وهو نموذج جديد لتقدير الوضعية المستند إلى القناع، الأفضل بين الأساليب الرأسية-للأسفل على مجموعة بيانات OCHuman. يحقق BBox-Mask-Pose أفضل مستوى أداء حاليًا (SOTA) على مجموعة بيانات OCHuman في جميع الثلاثة مهام - الكشف عن الأجسام، وتمييز النماذج الفردية، وتقدير الوضعية. كما يحقق أداءً رائدًا على تقدير الوضعية في مجموعة بيانات COCO. يكون هذا الطريقة خاصًة جيدًا في المشاهد التي تتضمن ازدحامًا كبيرًا بين النماذج الفردية، حيث يحسن الكشف بنسبة 39% فوق كاشف الجسم الأساسي. مع وجود نماذج متخصصة صغيرة وأداء تشغيلي أسرع، يعد BMP بديلًا فعالًا للنماذج الأساسية الكبيرة المركزة حول الإنسان. يمكن الحصول على الشيفرة البرمجية والنماذج من https://MiraPurkrabek.github.io/BBox-Mask-Pose.