HyperAIHyperAI

Command Palette

Search for a command to run...

MoMask: نمذجة التمويه الإنشائية للحركات البشرية ثلاثية الأبعاد

Chuan Guo Yuxuan Mu Muhammad Gohar Javed Sen Wang Li Cheng

الملخص

نُقدِّم MoMask، وهي إطار عمل جديد للنمذجة المُقنَّعة لتنبؤ الحركة البشرية ثلاثية الأبعاد بناءً على النصوص. في MoMask، يتم استخدام خطة كمّية هرمية لتمثيل الحركة البشرية كمُنتَجات حركية منفصلة متعددة الطبقات، مع الحفاظ على تفاصيل عالية الدقة. تبدأ العملية من الطبقة الأساسية، حيث يتم الحصول على تسلسل من رموز الحركة عبر التكميم المتجهي، ثم يتم استخلاص رموز التصحيح (الreste) ذات الرتبة المتزايدة وتخزينها في الطبقات التالية ضمن الهيكل الهرمي. يلي ذلك استخدام نوعين مختلفين من المحولات ثنائية الاتجاه (bidirectional transformers). بالنسبة لرموز الحركة في الطبقة الأساسية، يتم تخصيص محول مُقنَّع (Masked Transformer) للتنبؤ برموز الحركة المُقنَّعة عشوائيًا، مع الأخذ بعين الاعتبار المدخل النصي أثناء مرحلة التدريب. وفي مرحلة التوليد (أي التنبؤ)، تبدأ العملية من تسلسل فارغ، حيث يقوم محول المُقنَّع بتعبئة الرموز المفقودة تدريجيًا. ثم يتعلم محول التصحيح (Residual Transformer) التنبؤ بالتسلسل التالي من الرموز بناءً على النتائج المستمدة من الطبقة الحالية. أظهرت التجارب الواسعة أن MoMask تتفوّق على أحدث الأساليب في مهام التوليد من النص إلى الحركة، حيث حققت مؤشر FID قدره 0.045 (مقابل 0.141 لـ T2M-GPT) على مجموعة بيانات HumanML3D، و0.228 (مقابل 0.514) على مجموعة بيانات KIT-ML، على التوالي. كما يمكن تطبيق MoMask بشكل سلس في مهام ذات صلة دون الحاجة إلى إعادة تدريب النموذج، مثل التعبئة الزمنية الموجهة بالنص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp