MobilePose: تقدير وضعية الوقت الفعلي للأجسام غير المرئية باستخدام إشراف شكل ضعيف

في هذه الورقة، نتناول مشكلة اكتشاف الكائنات غير المرئية من الصور ذات الألوان الثلاثية (RGB) وتقدير وضعها ثلاثي الأبعاد. نقترح شبكتين مناسبتين للأجهزة المحمولة: MobilePose-Base وMobilePose-Shape. تُستخدم الأولى عند توفر فقط مراقبة للوضع (pose supervision)، بينما تُستخدم الثانية في الحالة التي يكون فيها متوفر مراقبة على الشكل (shape supervision)، حتى لو كانت ضعيفة. نعيد النظر في ميزات الشكل المستخدمة في الأساليب السابقة، بما في ذلك خرائط التقسيم (segmentation) وخرائط الإحداثيات (coordinate map). ونوضح متى ولماذا يمكن أن تُحسّن المراقبة على مستوى البكسل (pixel-level shape supervision) دقة تقدير الوضع. وبما أن ذلك، نضيف تنبؤ الشكل كطبقة وسيطة في MobilePose-Shape، ونسمح للشبكة بتعلم الوضع من الشكل. تُدرّب نماذجنا على بيانات مختلطة من الصور الحقيقية والمحاكاة، مع مراقبة شكل ضعيفة ومشوّشة. وتتميز هذه النماذج بوزنها الخفيف جدًا، ما يمكّنها من العمل بسرعة في الوقت الفعلي على الأجهزة المحمولة الحديثة (مثلاً 36 إطارًا في الثانية على جهاز Galaxy S20). مقارنة بالحلول أحادية الطور السابقة، يمتاز أسلوبنا بدقة أعلى، مع استخدام نموذج أصغر بكثير (من 2% إلى 3% فقط من حجم النموذج أو عدد المعلمات).