أساس بسيط ولكنه فعال لتقدير وضعية الجسم البشري في ثلاثية الأبعاد

بعد نجاح الشبكات التلافيفية العميقة، ركزت الطرق الرائدة لتقدير وضع الإنسان ثلاثي الأبعاد على أنظمة عميقة من النهاية إلى النهاية تتنبأ بمواقع المفاصل الثلاثية الأبعاد بناءً على البكسلات الصورية الخام. رغم أدائهم الممتاز، غالباً ما يكون من الصعب فهم ما إذا كانت أخطاؤهم المتبقية تنبع من فهم محدود للوضع ثنائي الأبعاد (التحليل البصري)، أو من فشل في تحويل المواقع ثنائية الأبعاد إلى مواقع ثلاثية الأبعاد. بهدف فهم هذه مصادر الخطأ، قمنا ببناء نظام يتنبأ بالمواقع ثلاثية الأبعاد بناءً على مواقع المفاصل ثنائية الأبعاد. وللدهشة، اكتشفنا أنه مع التكنولوجيا الحالية، "رفع" مواقع المفاصل الثنائية الأبعاد إلى الفضاء الثلاثي الأبعاد هو مهمة يمكن حلها بخطأ منخفض للغاية: شبكة عميقة تغذية متقدمة نسبيًا تتفوق على أفضل النتائج المبلغ عنها بنسبة حوالي 30٪ في Human3.6M، وهو أكبر معيار عام متاح لتقدير الوضع الثلاثي الأبعاد. بالإضافة إلى ذلك، تدريب نظامنا على إخراج كاشف ثنائي أبعاد جاهز ورائد (أي باستخدام الصور كمدخلات) يحقق نتائج رائدة -- وهذا يشمل مجموعة من الأنظمة التي تم تدريبها بشكل شامل خاص لهذا الغرض. تشير نتائجنا إلى أن جزءًا كبيرًا من خطأ أنظمة تقدير الوضع الثلاثي الأبعاد الحديثة ينبع من تحليلها البصري، وتشير إلى اتجاهات للتقدم أكثر في تقدير وضع الإنسان الثلاثي الأبعاد.请注意,这里“lifting”一词在科技文献中通常指从二维提升到三维的过程,因此我将其翻译为“رفع”。如果需要进一步的专业术语解释或有其他特定要求,请告知。