RTMO: نحو تقدير الوضعية الزمني الفعلي عالي الأداء لعدة أشخاص في مرحلة واحدة

تقدّم تقدير الوضع الفعلي لعدة أشخاص تحديات كبيرة في الموازنة بين السرعة والدقة. بينما تتباطأ الأساليب ثنائية المرحلة من الأعلى إلى الأسفل مع زيادة عدد الأشخاص في الصورة، غالباً ما تفشل الأساليب ذات المرحلة الواحدة الحالية في تحقيق الدقة العالية والأداء الفعلي في الوقت نفسه. يُقدِّم هذا البحث نظام RTMO، وهو إطار لتقدير الوضع بمرحلة واحدة يدمج تصنيف الإحداثيات بسلاسة من خلال تمثيل النقاط الرئيسية باستخدام خرائط حرارية ثنائية البعد واحد (1-D) ضمن هندسة YOLO، مما يحقق دقة مقاربة لتلك التي توفرها الأساليب ثنائية المرحلة مع الحفاظ على السرعة العالية. نقترح تصنيف إحداثي ديناميكي ودالة خسارة مخصصة لتعلم الخرائط الحرارية، وهي مصممة خصيصاً للتعامل مع عدم التوافق بين تصنيف الإحداثيات ونماذج التنبؤ الكثيفة. يتفوق نظام RTMO على أفضل النظم الحالية لتقدير الوضع بمرحلة واحدة، حيث يحقق ارتفاعاً بنسبة 1.1% في AP على مجموعة بيانات COCO بينما يعمل بوتيرة أسرع حوالي 9 مرات باستخدام نفس الهيكل الخلفي. أكبر نموذج لدينا، RTMO-l، يصل إلى نسبة AP تبلغ 74.8% على مجموعة بيانات COCO val2017 ومعدل إطارات بلغ 141 إطاراً في الثانية على وحدة معالجة الرسومات V100 الواحدة، مما يدل على كفاءته ودقته. يمكن الوصول إلى الشفرة والنماذج عبر الرابط:https://github.com/open-mmlab/mmpose/tree/main/projects/rtmo.ملاحظات توضيحية:- "AP" هو اختصار لـ "Average Precision" (المتوسط الدقيق).- "FPS" هو اختصار لـ "Frames Per Second" (عدد الإطارات لكل ثانية).