PersonLab: تقدير وضع الشخص وتقسيم النماذج باستخدام نموذج تضمين هندسي قائم على الأجزاء من الأسفل إلى الأعلى

نقدم نهجًا من الأسفل إلى الأعلى خاليًا من الصناديق (box-free) لأداء مهام تقدير الوضع وتقسيم النماذج الفردية للأشخاص في صور متعددة الأشخاص باستخدام نموذج فردي فعال. يعالج النموذج المقترح PersonLab التحليل على مستوى المعنى والروابط بين أجزاء الكائنات باستخدام نمذجة قائمة على الأجزاء. يستخدم نموذجنا شبكة تلافيفية (convolutional network) تتعلم اكتشاف النقاط الرئيسية الفردية وتتنبأ بنسب تحركاتها النسبية، مما يتيح لنا جمع النقاط الرئيسية في نماذج وضعيات الأشخاص. علاوة على ذلك، نقترح وصفة تمثيل هندسي مستوحاة من الأجزاء (part-induced geometric embedding descriptor) تمكننا من ربط بكسلات الشخص على مستوى المعنى بنموذج الشخص المقابل، مما يوفر تقسيمات شخصية على مستوى النموذج. نظامنا يستند إلى هندسة بالكامل تلافيفية (fully-convolutional architecture) ويسمح بالاستدلال الفعال، مع وقت تشغيل أساسيًا مستقل عن عدد الأشخاص الموجودين في المشهد. عند التدريب باستخدام بيانات COCO فقط، يصل نظامنا إلى دقة متوسطة لنقاط المفتاح في اختبار COCO test-dev قدرها 0.665 باستخدام الاستدلال بمقياس واحد و0.687 باستخدام الاستدلال بمقياس متعدد، مما يتفوق بشكل كبير على جميع أنظمة تقدير الوضع السابقة التي تعمل من الأسفل إلى الأعلى. كما أننا أول طريقة من الأسفل إلى الأعلى تبلغ عن نتائج تنافسية لفئة الشخص في مهمة تقسيم النماذج الفردية لـ COCO، حيث حققنا دقة متوسطة لفئة الشخص قدرها 0.417.