توليد تدريجي لتقديرات أولية أفضل نحو المراحل التالية لتوقع حركة الإنسان عالية الجودة

تقدم هذه الورقة منهجية عالية الجودة لتنبؤ حركة الإنسان، حيث تُقدّر بدقة وضعيات الإنسان المستقبلية بناءً على الوضعيات المُلاحظة. يعتمد منهجنا على ملاحظة أن افتراضًا جيدًا للوضعيات المستقبلية يُعدّ مُساعِدًا كبيرًا في تحسين دقة التنبؤ. وهذا يُحفّزنا على اقتراح إطار تنبؤ ثنائي المراحل، يتضمن شبكة تنبؤ أولية (init-prediction network) تقوم فقط بحساب هذا الافتراض الجيد، تليها شبكة تنبؤ رسمية (formal-prediction network) تُقدّر الوضعيات المستقبلية المستهدفة بناءً على هذا الافتراض. وبشكل أكثر أهمية، نوسع هذه الفكرة ونُصمم إطارًا متعدد المراحل، حيث تقوم كل مرحلة بتنبؤ افتراض أولي للمرحلة التالية، مما يُحقّق مكاسب أداء إضافية. ولإتمام مهمة التنبؤ في كل مرحلة، نقترح شبكة مكوّنة من شبكات الت convolution الرسومية الكثيفة المكانية (S-DGCN) وشبكات الت convolution الرسومية الكثيفة الزمنية (T-DGCN). وعند تنفيذ هاتين الشبكتين بشكل متزامن، يتمكنان من استخراج الميزات المكانية-الزمنية عبر المجال الاستقبال العالمي لسلسلة الوضعيات بأكملها. ونتيجة لجميع هذه الخيارات التصميمية التي تعمل معًا، يتفوّق منهجنا على الطرق السابقة بفارق كبير: من 6% إلى 7% على مجموعة Human3.6M، ومن 5% إلى 10% على مجموعة CMU-MoCap، وبنسبة من 13% إلى 16% على مجموعة 3DPW.