UniPose: التقدير المُوحَّد لوضع الإنسان في الصور الفردية والفيديوهات

نُقدّم UniPose، وهي إطار موحّد لتقدير وضعية الإنسان، مبني على معمارية "Waterfall" لاستخلاص المساحات المُتعددة الأبعاد (Atrous Spatial Pooling)، والذي يحقق نتائج متفوّقة على عدة مقاييس تقدير الوضعية. تعتمد الطرق الحالية لتقدير الوضعية التي تستخدم هياكل الشبكات العصبية التلافيفية القياسية (CNN) بشكل كبير على معالجة إحصائية ما بعد الانتهاء أو على موضعيات مسبقة التحديد (anchor poses) لتحديد مواقع المفاصل. أما UniPose، فيدمج بين التجزئة السياقية (contextual segmentation) وتحديد مواقع المفاصل في عملية واحدة، مما يسمح بتحديث دقيق لوضعية الإنسان دون الاعتماد على الطرق الإحصائية ما بعد الانتهاء. يُستفيد الوحدة "Waterfall" في UniPose من كفاءة التصفية التدريجية في البنية المتسلسلة (cascade architecture)، مع الحفاظ على مجالات رؤية متعددة المقاييس تشبه تكوينات الهرم المكاني (spatial pyramid). علاوةً على ذلك، تم توسيع طريقة UniPose لتصبح UniPose-LSTM لمعالجة الإطارات المتعددة، وحققت نتائج متميزة في تقدير الوضعية الزمنية في الفيديو. تُظهر نتائجنا على عدة مجموعات بيانات أن UniPose، مع استخدام هيكل خلفي من نوع ResNet ووحدة Waterfall، يُعدّ هيكلًا قويًا وفعالًا لتقدير الوضعية، ويحقق نتائج متميزة في كشف وضعية الشخص الواحد سواء في الصور الثابتة أو مقاطع الفيديو.