SRNet: تحسين التعميم في تقدير وضعية الإنسان ثلاثي الأبعاد باستخدام نهج التقسيم وإعادة التركيب

الوضعيات البشرية النادرة أو غير المرئية في مجموعة التدريب تمثل تحديًا للشبكة في التنبؤ بها. وبشكل مشابه لمشكلة التوزيع الطويل الذيل في التعرف البصري، فإن عدد الأمثلة القليلة لهذه الوضعيات يحد من قدرة الشبكات على نمذجتها. ومن المثير للاهتمام أن توزيعات الوضعيات المحلية تعاني أقل من مشكلة الطول الذيل، أي أن التكوينات المحلية للعظام داخل وضعية نادرة قد تظهر في وضعيات أخرى ضمن مجموعة التدريب، مما يجعلها أقل ندرة. نقترح الاستفادة من هذه الحقيقة لتحقيق تعميم أفضل للوضعيات النادرة وغير المرئية. وبصورة محددة، تقسم طريقة عملنا الجسم إلى مناطق محلية، وتُعالج كل منطقة في فرع منفصل من الشبكة، مستفيدة من الخاصية التي تنص على أن موضع العظم يعتمد بشكل رئيسي على العظام داخل المنطقة الجسدية المحلية المرتبطة به. ويتم الحفاظ على التماسك العالمي من خلال إعادة دمج السياق العالمي من بقية الجسم في كل فرع على شكل متجه ثنائي الأبعاد منخفض الأبعاد. وبفضل تقليل أبعاد المناطق الجسدية غير ذات صلة، يعكس توزيع مجموعة التدريب داخل فروع الشبكة بشكل أقرب إحصائيًا لتوزيع الوضعيات المحلية بدلًا من توزيع الوضعيات الجسدية العالمية، دون التضحية بالمعلومات الهامة لاستنتاج موضع العظام. تُعرف الطريقة المقترحة للفصل وإعادة التجميع بـ SRNet، ويمكن تكييفها بسهولة لكل من النماذج ذات الصورة الواحدة والأنماط الزمنية، وتساهم في تحسين ملحوظ في تنبؤ الوضعيات النادرة وغير المرئية.