MoMask: نمذجة التمويه الإنشائية للحركات البشرية ثلاثية الأبعاد

نُقدِّم MoMask، وهي إطار عمل جديد للنمذجة المُقنَّعة لتنبؤ الحركة البشرية ثلاثية الأبعاد بناءً على النصوص. في MoMask، يتم استخدام خطة كمّية هرمية لتمثيل الحركة البشرية كمُنتَجات حركية منفصلة متعددة الطبقات، مع الحفاظ على تفاصيل عالية الدقة. تبدأ العملية من الطبقة الأساسية، حيث يتم الحصول على تسلسل من رموز الحركة عبر التكميم المتجهي، ثم يتم استخلاص رموز التصحيح (الreste) ذات الرتبة المتزايدة وتخزينها في الطبقات التالية ضمن الهيكل الهرمي. يلي ذلك استخدام نوعين مختلفين من المحولات ثنائية الاتجاه (bidirectional transformers). بالنسبة لرموز الحركة في الطبقة الأساسية، يتم تخصيص محول مُقنَّع (Masked Transformer) للتنبؤ برموز الحركة المُقنَّعة عشوائيًا، مع الأخذ بعين الاعتبار المدخل النصي أثناء مرحلة التدريب. وفي مرحلة التوليد (أي التنبؤ)، تبدأ العملية من تسلسل فارغ، حيث يقوم محول المُقنَّع بتعبئة الرموز المفقودة تدريجيًا. ثم يتعلم محول التصحيح (Residual Transformer) التنبؤ بالتسلسل التالي من الرموز بناءً على النتائج المستمدة من الطبقة الحالية. أظهرت التجارب الواسعة أن MoMask تتفوّق على أحدث الأساليب في مهام التوليد من النص إلى الحركة، حيث حققت مؤشر FID قدره 0.045 (مقابل 0.141 لـ T2M-GPT) على مجموعة بيانات HumanML3D، و0.228 (مقابل 0.514) على مجموعة بيانات KIT-ML، على التوالي. كما يمكن تطبيق MoMask بشكل سلس في مهام ذات صلة دون الحاجة إلى إعادة تدريب النموذج، مثل التعبئة الزمنية الموجهة بالنص.