HyperAIHyperAI
منذ 16 أيام

BAMM: نموذج حركة ذاتي ثنائي الاتجاه

Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Pu Wang, Minwoo Lee, Srijan Das, Chen Chen
BAMM: نموذج حركة ذاتي ثنائي الاتجاه
الملخص

تم تأسيس توليد الحركة البشرية من النصوص بشكل رئيسي من خلال نماذج الحركة المُزالة للضوضاء، إما عبر عمليات التشتت أو التوليد المُقنّع. ومع ذلك، تواجه هذه النماذج قيودًا كبيرة من حيث الاستخدامية، حيث تتطلب معرفة مسبقة بطول الحركة. في المقابل، تُعالج النماذج ذات التوليد التلقائي (autoregressive) هذه القيود من خلال التنبؤ التكيفي بنهايات الحركة، لكنها تُعاني من تدهور في جودة التوليد وقدرات التعديل. ولحل هذه التحديات، نقترح نموذج الحركة التلقائية ثنائي الاتجاه (BAMM)، وهي إطار جديد لتوليد الحركة من النصوص. يتكوّن BAMM من مكوّنين رئيسيين: (1) مُحول الحركة (motion tokenizer) الذي يحوّل حركة الإنسان ثلاثية الأبعاد إلى رموز منفصلة في الفضاء الخفي، و(2) نموذج محول ذات انتباه مُقنّع (masked self-attention transformer) يتنبأ بشكل تلقائي بالرموز المُقنّعة عشوائيًا باستخدام استراتيجية مزيجة لقنوات الانتباه. وبتوحيد نماذج التوليد المُقنّع مع النماذج التلقائية، يُمكّن BAMM من التقاط اعتمادات غنية وثنائية الاتجاه بين الرموز الحركية، مع تعلّم التمثيل الاحتمالي من المدخلات النصية إلى المخرجات الحركية بطول متسلسل حركي يُعدّل ديناميكيًا. يمكّن هذا الميزة BAMM من تحقيق توليد حركة عالية الجودة مع تحسين الاستخدامية وتمكين التحرير المدمج للحركة في آنٍ واحد. أظهرت التجارب الواسعة على مجموعتي بيانات HumanML3D وKIT-ML أن BAMM يتفوّق على أحدث الطرق المُعتمدة في القياسات النوعية والكمية. يمكن الاطلاع على صفحة المشروع عبر الرابط: https://exitudio.github.io/BAMM-page

BAMM: نموذج حركة ذاتي ثنائي الاتجاه | أحدث الأوراق البحثية | HyperAI