التجميع الموجّه بالانحراف الطارئ للمفاتيح لتقدير وضعية الإنسان

نُقدّم نهجًا بسيطًا وموثوقًا من الأسفل إلى الأعلى، يحقق توازنًا جيدًا بين الدقة والكفاءة في حل مشكلة تقدير وضعية الأشخاص المتعددين. مع إعطاء صورة، نستخدم شبكة Hourglass لتوقع جميع النقاط المفتاحية من أشخاص مختلفين دون تمييز، وكذلك التحويلات التوجيهية التي تربط بين النقاط المفتاحية المجاورة المنتمية لنفس الشخص. ثم، نقوم بتجميع النقاط المفتاحية المرشحة بشكل جشع في عدة وضعيات بشرية (إن وُجدت)، مستخدمين التحويلات التوجيهية المُتنبأ بها. ونُشير إلى هذه العملية باسم تجميع النقاط المفتاحية الموجهة جشعًا (GOG). علاوة على ذلك، نعيد النظر في طريقة الترميز والفك الترميزي لتنسيق نقاط المفاتيح البشرية المتعددة، ونكشف عن بعض الحقائق المهمة التي تؤثر على الدقة. أظهرت التجارب تحسينات واضحة في الأداء ناتجة عن المكونات المُقدّمة. يُعد نهجنا مُنافسًا للحالة الراهنة على مجموعة بيانات COCO الصعبة في ظل ظروف عادلة. تم إتاحة الكود المصدري ونموذجنا المُدرّب مسبقًا بشكل عام على الإنترنت.