منذ 6 أشهر

الملخص

أظهرت التطورات الحديثة في إنشاء الحركة من النص باستخدام نماذج التبديد والنمذجة التلقائية نتائج واعدة. ومع ذلك، غالبًا ما تعاني هذه النماذج من تناقض بين الأداء في الوقت الفعلي، والولادة العالية الدقة، وقابلية تعديل الحركة. لمعالجة هذه الفجوة، نقدم MMM، نموذجًا جديدًا وبسيطًا لإنشاء الحركة يستند إلى نموذج الحركة المُقنَّع (Masked Motion Model). يتكوّن MMM من مكوّنين رئيسيين: (1) مُحلِّل حركة (motion tokenizer) يحوّل حركة الإنسان ثلاثية الأبعاد إلى تسلسل من الرموز المنفصلة في الفضاء الخفي، و(2) محول حركة مُقنَّع مشروط يتعلم توقع الرموز المُقنَّعة من الحركة بشكل عشوائي، معتمدًا على الرموز النصية المُعدّة مسبقًا. من خلال الانتباه إلى رموز الحركة والنصوص في جميع الاتجاهات، يُمكّن MMM من التقاط الاعتماد المُتأصّل بين رموز الحركة، والربط الدلالي بين رموز الحركة والنصوص. أثناء الاستدلال، يسمح هذا بالفك التوازي والتكراري لعدة رموز حركة، تكون متسقة للغاية مع الوصف النصي التفصيلي، وبالتالي تحقيق إنشاء حركة عالي الجودة وعالي السرعة في آنٍ واحد. علاوةً على ذلك، يتمتع MMM بقابلية تحرير حركة متأصلة: من خلال وضع رموز تغطية (mask tokens) في المكان الذي يتطلب التعديل، يملأ MMM الفجوات تلقائيًا مع ضمان انتقال سلس بين الأجزاء المُعدّلة وغير المُعدّلة. أظهرت التجارب الواسعة على مجموعتي بيانات HumanML3D وKIT-ML أن MMM يتفوّق على النماذج الرائدة الحالية في إنشاء حركات عالية الجودة (وذلك بفضل تحسين مؤشرات FID إلى 0.08 و0.429 على التوالي)، مع تقديم ميزات تحرير متقدمة مثل تعديل أجزاء الجسم، وتمييز الحركات الوسطية، وتركيب تسلسلات حركية طويلة. بالإضافة إلى ذلك، فإن MMM أسرع بمقدار مرّتين على وحدة معالجة رسومات متوسطة المدى واحدة مقارنةً بالنماذج التصورية القابلة للتعديل. يمكن الاطلاع على صفحة المشروع عبر الرابط: \url{https://exitudio.github.io/MMM-page}.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار