المهام المساعدة تُفيد التنبؤ بالحركة البشرية القائمة على الهيكل الثلاثي الأبعاد

استكشاف الاعتماديات المكانية-الزمنية من الحركات الملاحظة يُعدّ أحد التحديات الأساسية في توقع حركة الإنسان. اعتمدت الطرق السابقة بشكل رئيسي على هياكل شبكات مخصصة لنمذجة الاعتماديات المكانية والزمنية. في هذه الورقة، نأخذ نهجًا جديدًا من خلال تقديم إطار لتعلم النموذج يعتمد على مهام مساعدة. في مهامنا المساعدة، يتم تشويه إحداثيات بعض المفاصل الجسدية إما بوضع قناع (Masking) أو بإضافة ضوضاء، والهدف هو استرجاع الإحداثيات المتضررة استنادًا إلى الإحداثيات المتبقية. لتعمل مع المهام المساعدة، نقترح نموذجًا جديدًا يُسمى "Transformer مُعدّل للوظائف المساعدة" (Auxiliary-adapted Transformer)، الذي يمكنه التعامل مع بيانات حركة غير كاملة أو مُتضررة، وتحقيق استرجاع للإحداثيات من خلال اكتشاف الاعتماديات المكانية-الزمنية. من خلال هذه المهام المساعدة، يُعزز النموذج المُعدّل للوظائف المساعدة من قدرته على اكتشاف اعتميات مكانية-زمنية أكثر شمولاً بين إحداثيات المفاصل، ما يؤدي إلى تعلم ميزات أفضل. أظهرت النتائج التجريبية الواسعة أن طريقتنا تتفوق على أفضل الطرق الحالية بمعدلات ملحوظة تصل إلى 7.2% و3.7% و9.4% من حيث متوسط الخطأ المكاني لكل مفصل (MPJPE) في الإحداثيات الثلاثية الأبعاد على مجموعات بيانات Human3.6M وCMU Mocap و3DPW على التوالي. كما أثبتنا أن طريقتنا أكثر مقاومة في حالات فقدان البيانات وحالات البيانات المشوهة بالضوضاء. يُمكن الاطلاع على الكود عبر الرابط: https://github.com/MediaBrain-SJTU/AuxFormer.