نهج مزدوج المصدر لتقدير وضعية الجسم البشري ثلاثية الأبعاد من صورة واحدة

في هذا العمل، نتناول المشكلة الصعبة المتمثلة في تقدير وضع الجسم البشري ثلاثي الأبعاد من صور فردية. تتعلم النهج الحديثة شبكات عصبية عميقة لتقدير الوضع ثلاثي الأبعاد مباشرةً من الصور. ومع ذلك، فإن أحد التحديات الرئيسية لهذه الطرق هو جمع البيانات التدريبية. بعين الخصوص، فإن جمع كميات كبيرة من بيانات التدريب التي تحتوي على صور غير مقيدة ومصحوبة بوضعيات ثلاثية أبعاد دقيقة أمر غير قابل للتنفيذ. ولذلك، نقترح استخدام مصدرين تدريبيين مستقلين. يتألف المصدر الأول من بيانات التقاط الحركة ثلاثية الأبعاد الدقيقة، والثاني من صور غير مقيدة مصحوبة بوضعيات ثنائية الأبعاد مُشَاهَدَة. لدمج هذين المصدرين، نقترح نهجًا ثنائي المصدر يجمع بين تقدير الوضع الثنائي الأبعاد واسترجاع الوضع الثلاثي الأبعاد بكفاءة. لهذا الغرض، نقوم أولاً بتحويل بيانات التقاط الحركة إلى فضاء وضع ثنائي الأبعاد مُعَمَّر، ونتعلم بشكل منفصل نموذج تقدير وضع ثنائي الأبعاض من بيانات الصور. أثناء الاستدلال (inference)، نقدر الوضع الثنائي الأبعاض ونسترجع بأمانة أقرب الوضعيات الثلاثية الأبعاض. ثم نقدر خريطة مشتركة من فضاء الوضع الثلاثي الأبعاض إلى الصورة وإعادة بناء الوضع الثلاثي الأبعاض. نقدم تقييمًا شاملًا للطريقة المقترحة ونبين تجريبيًا فعالية نهجنا حتى عندما تختلف هيكل العظام في المصدرين بشكل كبير.