RTMPose: تقدير وضعية الأشخاص في الوقت الحقيقي بناءً على MMPose

دراسات حديثة في تقدير الوضعية ثنائية الأبعاد قد حققت أداءً ممتازًا على مقاييس الأداء العامة، ومع ذلك لا تزال تطبيقاتها في المجتمع الصناعي تعاني من وجود معلمات نموذجية ثقيلة وتأخير عالٍ. من أجل جسر هذه الفجوة، قمنا بدراسة تجريبية لعوامل رئيسية في تقدير الوضعية، بما في ذلك النموذج المفاهيمي (paradigm)، هندسة النموذج، استراتيجية التدريب، والنشر، وقدمنا إطارًا عالي الأداء للتقدير الزمني الحقيقي للوضعيات المتعددة الأشخاص، وهو RTMPose، استنادًا إلى MMPose. يحقق نموذج RTMPose-m نسبة دقة 75.8% على مجموعة بيانات COCO بمعدل أكثر من 90 صورة في الثانية على معالج Intel i7-11700 و أكثر من 430 صورة في الثانية على بطاقة الرسومات NVIDIA GTX 1660 Ti، بينما يحقق نموذج RTMPose-l نسبة دقة 67.0% على مجموعة بيانات COCO-WholeBody بمعدل أكثر من 130 صورة في الثانية. لتقييم قدرة RTMPose بشكل أكبر في التطبيقات الزمنية الحاسمة، قمنا أيضًا بتقرير الأداء بعد نشره على الجهاز المحمول. يحقق نموذج RTMPose-s نسبة دقة 72.2% على مجموعة بيانات COCO بمعدل أكثر من 70 صورة في الثانية على شريحة Snapdragon 865، مما يجعله أفضل من المكتبات المفتوحة المصدر الموجودة حاليًا. تم إصدار الكود والنماذج عبر الرابط:https://github.com/open-mmlab/mmpose/tree/1.x/projects/rtmpose.