HyperAIHyperAI

Command Palette

Search for a command to run...

BAMM: نموذج حركة ذاتي ثنائي الاتجاه

Ekkasit Pinyoanuntapong Muhammad Usama Saleem Pu Wang Minwoo Lee Srijan Das Chen Chen

الملخص

تم تأسيس توليد الحركة البشرية من النصوص بشكل رئيسي من خلال نماذج الحركة المُزالة للضوضاء، إما عبر عمليات التشتت أو التوليد المُقنّع. ومع ذلك، تواجه هذه النماذج قيودًا كبيرة من حيث الاستخدامية، حيث تتطلب معرفة مسبقة بطول الحركة. في المقابل، تُعالج النماذج ذات التوليد التلقائي (autoregressive) هذه القيود من خلال التنبؤ التكيفي بنهايات الحركة، لكنها تُعاني من تدهور في جودة التوليد وقدرات التعديل. ولحل هذه التحديات، نقترح نموذج الحركة التلقائية ثنائي الاتجاه (BAMM)، وهي إطار جديد لتوليد الحركة من النصوص. يتكوّن BAMM من مكوّنين رئيسيين: (1) مُحول الحركة (motion tokenizer) الذي يحوّل حركة الإنسان ثلاثية الأبعاد إلى رموز منفصلة في الفضاء الخفي، و(2) نموذج محول ذات انتباه مُقنّع (masked self-attention transformer) يتنبأ بشكل تلقائي بالرموز المُقنّعة عشوائيًا باستخدام استراتيجية مزيجة لقنوات الانتباه. وبتوحيد نماذج التوليد المُقنّع مع النماذج التلقائية، يُمكّن BAMM من التقاط اعتمادات غنية وثنائية الاتجاه بين الرموز الحركية، مع تعلّم التمثيل الاحتمالي من المدخلات النصية إلى المخرجات الحركية بطول متسلسل حركي يُعدّل ديناميكيًا. يمكّن هذا الميزة BAMM من تحقيق توليد حركة عالية الجودة مع تحسين الاستخدامية وتمكين التحرير المدمج للحركة في آنٍ واحد. أظهرت التجارب الواسعة على مجموعتي بيانات HumanML3D وKIT-ML أن BAMM يتفوّق على أحدث الطرق المُعتمدة في القياسات النوعية والكمية. يمكن الاطلاع على صفحة المشروع عبر الرابط: https://exitudio.github.io/BAMM-page


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp