HyperAIHyperAI

Command Palette

Search for a command to run...

MMM: نموذج حركة مُقنّن توليدي

Ekkasit Pinyoanuntapong Pu Wang Minwoo Lee Chen Chen

الملخص

أظهرت التطورات الحديثة في إنشاء الحركة من النص باستخدام نماذج التبديد والنمذجة التلقائية نتائج واعدة. ومع ذلك، غالبًا ما تعاني هذه النماذج من تناقض بين الأداء في الوقت الفعلي، والولادة العالية الدقة، وقابلية تعديل الحركة. لمعالجة هذه الفجوة، نقدم MMM، نموذجًا جديدًا وبسيطًا لإنشاء الحركة يستند إلى نموذج الحركة المُقنَّع (Masked Motion Model). يتكوّن MMM من مكوّنين رئيسيين: (1) مُحلِّل حركة (motion tokenizer) يحوّل حركة الإنسان ثلاثية الأبعاد إلى تسلسل من الرموز المنفصلة في الفضاء الخفي، و(2) محول حركة مُقنَّع مشروط يتعلم توقع الرموز المُقنَّعة من الحركة بشكل عشوائي، معتمدًا على الرموز النصية المُعدّة مسبقًا. من خلال الانتباه إلى رموز الحركة والنصوص في جميع الاتجاهات، يُمكّن MMM من التقاط الاعتماد المُتأصّل بين رموز الحركة، والربط الدلالي بين رموز الحركة والنصوص. أثناء الاستدلال، يسمح هذا بالفك التوازي والتكراري لعدة رموز حركة، تكون متسقة للغاية مع الوصف النصي التفصيلي، وبالتالي تحقيق إنشاء حركة عالي الجودة وعالي السرعة في آنٍ واحد. علاوةً على ذلك، يتمتع MMM بقابلية تحرير حركة متأصلة: من خلال وضع رموز تغطية (mask tokens) في المكان الذي يتطلب التعديل، يملأ MMM الفجوات تلقائيًا مع ضمان انتقال سلس بين الأجزاء المُعدّلة وغير المُعدّلة. أظهرت التجارب الواسعة على مجموعتي بيانات HumanML3D وKIT-ML أن MMM يتفوّق على النماذج الرائدة الحالية في إنشاء حركات عالية الجودة (وذلك بفضل تحسين مؤشرات FID إلى 0.08 و0.429 على التوالي)، مع تقديم ميزات تحرير متقدمة مثل تعديل أجزاء الجسم، وتمييز الحركات الوسطية، وتركيب تسلسلات حركية طويلة. بالإضافة إلى ذلك، فإن MMM أسرع بمقدار مرّتين على وحدة معالجة رسومات متوسطة المدى واحدة مقارنةً بالنماذج التصورية القابلة للتعديل. يمكن الاطلاع على صفحة المشروع عبر الرابط: \url{https://exitudio.github.io/MMM-page}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp