الكشف الصريح عن الصناديق يوحّد تقدير الوضعية ثلاثية الأبعاد للأشخاص المتعددين من النهاية إلى النهاية

يقدم هذا البحث إطارًا جديدًا من النهاية إلى النهاية مع كشف الصناديق الصريحة لتقدير وضعيات الأشخاص المتعددين، يُطلق عليه اسم ED-Pose، حيث يتم توحيد التعلم السياقي بين المعلومات على مستوى الشخص (العالمي) والمعلومات على مستوى النقاط الرئيسية (المحلية). بخلاف الطرق ذات المرحلة الواحدة السابقة، يعيد ED-Pose النظر في هذه المهمة كعمليتين صريحتين لكشف الصناديق مع تمثيل موحد وإشراف الانحدار. أولاً، نقدم محكّم كشف الشخص من الرموز المشفرة لاستخراج الخصائص العالمية. يمكن لهذا المحكّم توفير تهيئة جيدة للكشف عن النقاط الرئيسية اللاحقة، مما يجعل عملية التدريب تتقارب بسرعة. ثانيًا، للإدخال معلومات سياقية قريبة من النقاط الرئيسية، نعتبر تقدير الوضعية مشكلة كشف صندوق النقاط الرئيسية لتعلم مواقع الصناديق ومحتوياتها لكل نقطة رئيسية. يتبنى محكّم الكشف عن الشخص إلى النقاط الرئيسية استراتيجية تعلم تفاعلية بين خصائص الشخص والنقاط الرئيسية لتعزيز التجميع العالمي والموضعي للخصائص بشكل أكبر. عمومًا، يتميز ED-Pose بمفهوم بسيط دون معالجة ما بعد والرقابة على الخرائط الحرارية الكثيفة. يظهر فعاليته وكفاءته مقارنة بالطرق ذات المرحلتين وذات المرحلة الواحدة. بشكل خاص، يعزز الكشف الصريح عن الصناديق أداء تقدير الوضعية بمقدار 4.5 AP على COCO و9.9 AP على CrowdPose. وللمرة الأولى، كإطار كامل من النهاية إلى النهاية مع خسارة انحدار L1، يتفوق ED-Pose على طرق Top-down القائمة على الخرائط الحرارية بنفس العمود الفقري بمقدار 1.2 AP على COCO ويحقق أفضل الأداء حتى الآن بمقدار 76.6 AP على CrowdPose دون أي تعقيدات إضافية. يمكن الحصول على الشيفرة البرمجية من https://github.com/IDEA-Research/ED-Pose.