RTMW: تقدير وضعية الجسم الكاملة ثنائية وثلاثية الأبعاد متعددة الأشخاص في الزمن الفعلي

يُعدُّ تقدير وضعية الجسم بالكامل مهمةً صعبة تتطلب التنبؤ في آنٍ واحد بنقاط المفتاح الخاصة بالجسم، واليدين، والوجه، والأقدام. ويهدف تقدير وضعية الجسم بالكامل إلى التنبؤ بمعلومات وضعية دقيقة للجسم البشري، بما في ذلك الوجه، والجزء العلوي من الجسم، واليدين، والأقدام، وهو ما يُعدُّ دورًا مهمًا في دراسة الإدراك والتكوين المتمحور حول الإنسان، وكذلك في تطبيقات متنوعة. في هذا العمل، نقدّم نماذج RTMW (نماذج تقدير وضعية الجسم بالكامل في الوقت الفعلي متعددة الأشخاص)، وهي سلسلة من النماذج عالية الأداء لتقدير وضعية الجسم بالكامل ثنائية وثلاثية الأبعاد. ونُدمج معمارية نموذج RTMPose مع FPN وHEM (وحدة التشفير الهرمي) لتحسين التقاط معلومات الوضعية من أجزاء الجسم المختلفة ذات المقاييس المتنوعة. وتم تدريب النموذج باستخدام مجموعة غنية من مجموعات بيانات نقاط المفتاح البشرية المفتوحة المصدر، مع تسميات مُنسَّقة يدويًا، وتم تعزيز أداؤه لاحقًا من خلال استراتيجية تبادل تدريسيّة مكونة من مرحلتين. تُظهر نماذج RTMW أداءً قويًا على عدة معايير لتقدير وضعية الجسم بالكامل، مع الحفاظ على كفاءة عالية في التنبؤ وسهولة في التنفيذ. ونُطلق ثلاثة أحجام: m/l/x، حيث حقق نموذج RTMW-l تقييمًا قدره 70.2 mAP على معيار COCO-Wholebody، مما يجعله أول نموذج مفتوح المصدر يتجاوز عتبة 70 mAP في هذا المعيار. وفي الوقت نفسه، استكشفنا أداء نماذج RTMW في مهمة تقدير وضعية الجسم بالكامل ثلاثية الأبعاد، من خلال إجراء تقدير ثلاثي الأبعاد لوضعية الجسم بالكامل بناءً على صور مفردة بطريقة تصنيف الإحداثيات. ونأمل أن يُسهم هذا العمل في دعم البحث الأكاديمي والتطبيقات الصناعية. وتم إتاحة الكود والنماذج للجمهور عبر الرابط التالي: https://github.com/open-mmlab/mmpose/tree/main/projects/rtmpose