ما وراء الرؤية الضعيفة للمحاذاة ثلاثية الأبعاد للإنسان من منظور واحد

نُعَدّ مهمة توقع مواقع واتجاهات المفاصل الثلاثية الأبعاد من فيديو مونوكولار باستخدام نموذج الجسم المُغَطّى بطبقة متعددة الأشخاص خطيًا (SMPL). نبدأ بتحديد مواقع المفاصل ثنائية الأبعاد باستخدام خوارزمية توقع وضعية الجسم الجاهزة. نستخدم خوارزمية SPIN ونُقدّر التوقعات الأولية لوضعية الجسم وشكله وبارامترات الكاميرا من خلال شبكة عصبية عميقة للاستدلال. ثم نتبع خوارزمية SMPLify التي تتلقى تلك البارامترات الأولية، وتحسّنها بحيث تتطابق المفاصل الثلاثية الأبعاد المستخلصة من نموذج SMPL مع مواقع المفاصل الثنائية الأبعاد. تتضمن هذه الخوارزمية خطوة تصوير المفاصل الثلاثية الأبعاد إلى مستوى الصورة ثنائي الأبعاد. ويُعتمد في النهج التقليدي على افتراضات التماثل الضعيف التي تستخدم طول بؤري افتراضي. ومن خلال التجارب على مجموعة بيانات 3D Poses in the Wild (3DPW)، نُظهر أن استخدام التصوير الكامل من المنظور، مع تحديد مركز الكاميرا الصحيح وطول بؤري تقريبي، يُعطي نتائج مُرضية. وقد أدّت خوارزميتنا إلى إدخال رائد في تحدي 3DPW، حيث حققت المركز الأول من حيث دقة اتجاهات المفاصل.