تعلم تمثيلات محلية دقيقة لتقدير وضعية أكثر من شخص

في هذه الورقة، نُقدّم طريقة جديدة تُسمّى شبكة الخطوات المتبقية (Residual Steps Network، RSN). تُجمّع RSN الميزات ذات الحجم المكاني نفسه (الميزات داخل المستوى) بشكل فعّال للحصول على تمثيلات محلية دقيقة، والتي تحتفظ بمعلومات مكانيّة منخفضة المستوى الغنية، مما يؤدي إلى تحديد دقيق لمواقع النقاط الرئيسية. بالإضافة إلى ذلك، لاحظنا أن مخرجات الميزات تُسهم بشكل مختلف في الأداء النهائي. لمعالجة هذه المشكلة، نقترح آلية انتباه فعّالة تُسمّى آلة تحسين الموضع (Pose Refine Machine، PRM)، والتي تُحقّق توازناً بين التمثيلات المحلية والعالمية في مخرجات الميزات، وتحسّن بشكل إضافي مواقع النقاط الرئيسية. حقّقت طريقةنا المركز الأول في مسابقة COCO لتحديد النقاط الرئيسية لعام 2019، وحققت نتائج رائدة على كلا المعيارين COCO وMPII، دون استخدام بيانات تدريب إضافية أو نماذج مُدرّبة مسبقًا. حقّقت النموذج الواحد 78.6 على مجموعة COCO test-dev، و93.0 على مجموعة MPII test. أما النماذج المجمّعة، فقد حقّقت 79.2 على مجموعة COCO test-dev، و77.1 على مجموعة COCO test-challenge. يُتاح الكود المصدري بشكل عام للبحث اللاحق عبر الرابط التالي: https://github.com/caiyuanhao1998/RSN/